Overview
VLM
BLIP G1 ICML 2022
Flamingo G2 NeurIPS 2022
BLIP-2 G2 ICML 2023
Kosmos-1 G2 arXiv 2023
LLaVA G3 NeurIPS 2023
MiniGPT-4 G3 arXiv 2023
InstructBLIP G3 NeurIPS 2023
Qwen-VL G3 arXiv 2023
LLaVA-1.5 G3 CVPR 2024
Gemini G4 arXiv 2023
InternVL G3 CVPR 2024
LLaVA-OneVision G4 arXiv 2024
Qwen2-VL G4 arXiv 2024
InternVL 2.5 G4 arXiv 2024
DeepSeek-VL2 G4 arXiv 2024
Qwen2.5-VL G4 arXiv 2025
InternVL3 G4 arXiv 2025
InternVL3.5 G4 arXiv 2025
Qwen3-VL G4 arXiv 2025
Modality Encoder
CLIP ICML 2021
EVA-CLIP arXiv 2023
Input Projector
P-Former NeurIPS 2023

Overview
Pruning
DynamicViT NeurIPS 2021
EViT ICLR 2022
Evo-ViT AAAI 2022
ATS ECCV 2022
AS-ViT IJCAI 2023
TPS CVPR 2023
Zero-TPrune CVPR 2024
STAR ICLR 2024
Frequency-Aware TR NeurIPS 2025
Token Cropr CVPR 2025
Merging
ToMe ICLR 2023
DTEM NeurIPS 2024
MCTF CVPR 2024
Pooling
TokenLearner NeurIPS 2021
Token Pooling WACV 2023
Hybrid
DiffRate ICCV 2023
Token Fusion (ToFu) WACV 2024

Efficient VLM (0)

Overview

[DeepSeek-VL2] Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding

arXiv 2024

2024 · vlm · vlm

VLM G4 arXiv 2024

Zhiyu Wu, Xiaokang Chen, … Chong Ruan · DeepSeek-AI

arXiv GitHub

한 줄 요약. DeepSeek-VL의 후속, MoE(Mixture-of-Experts) 비전-언어 모델. LLaVA식 구조(인코더+어댑터+LLM)에 두 가지를 얹었다 — ① 동적 타일링(dynamic tiling) 비전 인코딩: 단일 SigLIP으로 어떤 해상도·종횡비든 384 타일들 + thumbnail로 쪼개 처리(전작의 고정 1024² 한계 제거). ② DeepSeekMoE LLM + MLA(Multi-head Latent Attention): KV 캐시를 latent로 압축 + 희소(MoE) 연산 → 추론 효율↑. 그 결과 활성 파라미터 1.0/2.8/4.5B만으로 비슷하거나 적은 연산으로 dense·MoE 모델과 대등/우위. 그라운딩·GUI·문서/표/차트까지.

배경

전작 DeepSeek-VL은 하이브리드 비전 인코더(SigLIP@384 + SAM-B@1024)로 풍부한 특징을 뽑았지만, 고정 1024² 해상도에 묶여 있었다.

고정 해상도의 한계 — InfographicVQA·밀집 OCR·세밀한 그라운딩처럼 초고해상도·극단 종횡비 입력에 약하다.
효율 — 큰 dense LLM은 추론 비용이 크다.

비전은 해상도에 적응하고(타일링), 언어는 희소(MoE) + KV 압축(MLA) 으로 효율을 챙기면, 적은 활성 파라미터로도 강해지지 않을까?

Figure 2. DeepSeek-VL2 개요. LLaVA식 구조 — 비전 인코더 + VL 어댑터(2-layer MLP) + MoE 기반 LLM. 전작 대비 ①동적 타일링과 ②DeepSeekMoE(MLA)가 핵심 변경점.

핵심 아이디어

① 동적 타일링 (Dynamic Tiling)

단일 SigLIP-SO400M-384로 모든 해상도 처리. 입력을 padding이 최소가 되는 후보 해상도로 맞춰 384×384 로컬 타일들 + 글로벌 thumbnail로 분할(타일당 27×27=729 임베딩). 전작의 고정 1024² 인코더를 대체.

② DeepSeekMoE + MLA

LLM은 희소 MoE(전문가 일부만 활성) + MLA가 KV 캐시를 latent 벡터로 압축 → 추론 속도·처리량↑. 적은 활성 파라미터로 큰 모델 효과.

③ 데이터 + 새 능력

VL 데이터를 품질·양·다양성 모두 강화. visual grounding(<|ref|>·<|det|> 토큰)·GUI 인식·문서/표/차트·밀집 OCR 능력 추가.

동적 타일링은 어떻게 — 단일 인코더로 초고해상도

전작의 두 인코더(SigLIP@384 + SAM@1024) 대신 SigLIP 하나로 통일하되, 이미지를 타일로 쪼개 고해상도를 감당한다.

후보 해상도 집합에서 padding이 가장 작은 (m·384, n·384)을 골라 리사이즈 → m×n개 로컬 타일 + 1개 글로벌 thumbnail.
각 타일을 공유 ViT로 처리(로컬 attention 유지) → 해상도가 커져도 제곱 폭증 없이 세밀한 특징 추출.
멀티이미지(>2장)일 땐 컨텍스트 관리를 위해 타일링을 끈다. 시각 토큰은 2-layer MLP로 LLM 공간에 투영.

Figure 3. 동적 타일링 전략. 이미지를 여러 타일로 나눠, 전작 DeepSeek-VL보다 세밀한(fine-grained) 이해를 얻는다.

모델 패밀리

변형	MoE LLM	활성 파라미터
DeepSeek-VL2-Tiny	3B	1.0B
DeepSeek-VL2-Small	16B	2.8B
DeepSeek-VL2	27B	4.5B

총 파라미터는 MoE라 크지만, 실제 연산에 쓰는 활성 파라미터는 1~4.5B으로 작다(효율의 핵심).

결과

Figure 1. 활성 파라미터 대비 평균 성능(MMBench v1.1·MMStar·MMMU·MathVista·AI2D·OCRBench 평균). DeepSeek-VL2는 비슷하거나 적은 활성 파라미터로 오픈 dense·MoE 모델과 대등/우위.

효율-성능 프런티어 — 비슷하거나 적은 활성 파라미터로 기존 오픈 dense·MoE 모델과 대등하거나 SOTA.
강점 영역 — VQA·OCR·문서/표/차트 이해·시각 추론, 그리고 새로 얻은 visual grounding·GUI 인식.

한 줄 정리 & 의의

MoE로 효율을 챙긴 동적 고해상도 VLM. ① 단일 SigLIP + 동적 타일링(고정 해상도 탈피) ② DeepSeekMoE + MLA(희소 연산 + KV 압축) → 활성 파라미터 1~4.5B로 강력.
차별점. InternVL 2.5가 큰 dense ViT + 타일링으로 스케일했다면, DeepSeek-VL2는 LLM 쪽을 MoE+MLA로 희소화해 활성 파라미터당 효율을 노린다. Qwen2-VL의 네이티브 동적 해상도와 목표(고해상도)는 같되, 수단이 타일링+MoE.
위치(세대). G4(Native Multimodal) — 동적 고해상도 + 효율(MoE) 노선. → VLM 개요