[DeepSeek-VL2] Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding
Zhiyu Wu, Xiaokang Chen, … Chong Ruan · DeepSeek-AI
한 줄 요약. DeepSeek-VL의 후속, MoE(Mixture-of-Experts) 비전-언어 모델. LLaVA식 구조(인코더+어댑터+LLM)에 두 가지를 얹었다 — ① 동적 타일링(dynamic tiling) 비전 인코딩: 단일 SigLIP으로 어떤 해상도·종횡비든 384 타일들 + thumbnail로 쪼개 처리(전작의 고정 1024² 한계 제거). ② DeepSeekMoE LLM + MLA(Multi-head Latent Attention): KV 캐시를 latent로 압축 + 희소(MoE) 연산 → 추론 효율↑. 그 결과 활성 파라미터 1.0/2.8/4.5B만으로 비슷하거나 적은 연산으로 dense·MoE 모델과 대등/우위. 그라운딩·GUI·문서/표/차트까지.
배경
전작 DeepSeek-VL은 하이브리드 비전 인코더(SigLIP@384 + SAM-B@1024)로 풍부한 특징을 뽑았지만, 고정 1024² 해상도에 묶여 있었다.
- 고정 해상도의 한계 — InfographicVQA·밀집 OCR·세밀한 그라운딩처럼 초고해상도·극단 종횡비 입력에 약하다.
- 효율 — 큰 dense LLM은 추론 비용이 크다.
비전은 해상도에 적응하고(타일링), 언어는 희소(MoE) + KV 압축(MLA) 으로 효율을 챙기면, 적은 활성 파라미터로도 강해지지 않을까?
핵심 아이디어
단일 SigLIP-SO400M-384로 모든 해상도 처리. 입력을 padding이 최소가 되는 후보 해상도로 맞춰 384×384 로컬 타일들 + 글로벌 thumbnail로 분할(타일당 27×27=729 임베딩). 전작의 고정 1024² 인코더를 대체.
LLM은 희소 MoE(전문가 일부만 활성) + MLA가 KV 캐시를 latent 벡터로 압축 → 추론 속도·처리량↑. 적은 활성 파라미터로 큰 모델 효과.
VL 데이터를 품질·양·다양성 모두 강화. visual grounding(<|ref|>·<|det|> 토큰)·GUI 인식·문서/표/차트·밀집 OCR 능력 추가.
동적 타일링은 어떻게 — 단일 인코더로 초고해상도
전작의 두 인코더(SigLIP@384 + SAM@1024) 대신 SigLIP 하나로 통일하되, 이미지를 타일로 쪼개 고해상도를 감당한다.
- 후보 해상도 집합에서 padding이 가장 작은 (m·384, n·384)을 골라 리사이즈 → m×n개 로컬 타일 + 1개 글로벌 thumbnail.
- 각 타일을 공유 ViT로 처리(로컬 attention 유지) → 해상도가 커져도 제곱 폭증 없이 세밀한 특징 추출.
- 멀티이미지(>2장)일 땐 컨텍스트 관리를 위해 타일링을 끈다. 시각 토큰은 2-layer MLP로 LLM 공간에 투영.
모델 패밀리
| 변형 | MoE LLM | 활성 파라미터 |
|---|---|---|
| DeepSeek-VL2-Tiny | 3B | 1.0B |
| DeepSeek-VL2-Small | 16B | 2.8B |
| DeepSeek-VL2 | 27B | 4.5B |
- 총 파라미터는 MoE라 크지만, 실제 연산에 쓰는 활성 파라미터는 1~4.5B으로 작다(효율의 핵심).
결과
- 효율-성능 프런티어 — 비슷하거나 적은 활성 파라미터로 기존 오픈 dense·MoE 모델과 대등하거나 SOTA.
- 강점 영역 — VQA·OCR·문서/표/차트 이해·시각 추론, 그리고 새로 얻은 visual grounding·GUI 인식.
한 줄 정리 & 의의
- MoE로 효율을 챙긴 동적 고해상도 VLM. ① 단일 SigLIP + 동적 타일링(고정 해상도 탈피) ② DeepSeekMoE + MLA(희소 연산 + KV 압축) → 활성 파라미터 1~4.5B로 강력.
- 차별점. InternVL 2.5가 큰 dense ViT + 타일링으로 스케일했다면, DeepSeek-VL2는 LLM 쪽을 MoE+MLA로 희소화해 활성 파라미터당 효율을 노린다. Qwen2-VL의 네이티브 동적 해상도와 목표(고해상도)는 같되, 수단이 타일링+MoE.
- 위치(세대). G4(Native Multimodal) — 동적 고해상도 + 효율(MoE) 노선. → VLM 개요