[DeepSeek-VL2] Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding

VLM G4 arXiv 2024

Zhiyu Wu, Xiaokang Chen, … Chong Ruan · DeepSeek-AI

arXiv GitHub

한 줄 요약. DeepSeek-VL의 후속, MoE(Mixture-of-Experts) 비전-언어 모델. LLaVA식 구조(인코더+어댑터+LLM)에 두 가지를 얹었다 — ① 동적 타일링(dynamic tiling) 비전 인코딩: 단일 SigLIP으로 어떤 해상도·종횡비든 384 타일들 + thumbnail로 쪼개 처리(전작의 고정 1024² 한계 제거). ② DeepSeekMoE LLM + MLA(Multi-head Latent Attention): KV 캐시를 latent로 압축 + 희소(MoE) 연산 → 추론 효율↑. 그 결과 활성 파라미터 1.0/2.8/4.5B만으로 비슷하거나 적은 연산으로 dense·MoE 모델과 대등/우위. 그라운딩·GUI·문서/표/차트까지.

배경

전작 DeepSeek-VL하이브리드 비전 인코더(SigLIP@384 + SAM-B@1024)로 풍부한 특징을 뽑았지만, 고정 1024² 해상도에 묶여 있었다.

  • 고정 해상도의 한계 — InfographicVQA·밀집 OCR·세밀한 그라운딩처럼 초고해상도·극단 종횡비 입력에 약하다.
  • 효율 — 큰 dense LLM은 추론 비용이 크다.

비전은 해상도에 적응하고(타일링), 언어는 희소(MoE) + KV 압축(MLA) 으로 효율을 챙기면, 적은 활성 파라미터로도 강해지지 않을까?

Figure 2. DeepSeek-VL2 개요. LLaVA식 구조 — 비전 인코더 + VL 어댑터(2-layer MLP) + MoE 기반 LLM. 전작 대비 ①동적 타일링과 ②DeepSeekMoE(MLA)가 핵심 변경점.

핵심 아이디어

① 동적 타일링 (Dynamic Tiling)

단일 SigLIP-SO400M-384로 모든 해상도 처리. 입력을 padding이 최소가 되는 후보 해상도로 맞춰 384×384 로컬 타일들 + 글로벌 thumbnail로 분할(타일당 27×27=729 임베딩). 전작의 고정 1024² 인코더를 대체.

② DeepSeekMoE + MLA

LLM은 희소 MoE(전문가 일부만 활성) + MLAKV 캐시를 latent 벡터로 압축 → 추론 속도·처리량↑. 적은 활성 파라미터로 큰 모델 효과.

③ 데이터 + 새 능력

VL 데이터를 품질·양·다양성 모두 강화. visual grounding(<|ref|>·<|det|> 토큰)·GUI 인식·문서/표/차트·밀집 OCR 능력 추가.

동적 타일링은 어떻게 — 단일 인코더로 초고해상도

전작의 두 인코더(SigLIP@384 + SAM@1024) 대신 SigLIP 하나로 통일하되, 이미지를 타일로 쪼개 고해상도를 감당한다.

  • 후보 해상도 집합에서 padding이 가장 작은 (m·384, n·384)을 골라 리사이즈 → m×n개 로컬 타일 + 1개 글로벌 thumbnail.
  • 각 타일을 공유 ViT로 처리(로컬 attention 유지) → 해상도가 커져도 제곱 폭증 없이 세밀한 특징 추출.
  • 멀티이미지(>2장)일 땐 컨텍스트 관리를 위해 타일링을 끈다. 시각 토큰은 2-layer MLP로 LLM 공간에 투영.
Figure 3. 동적 타일링 전략. 이미지를 여러 타일로 나눠, 전작 DeepSeek-VL보다 세밀한(fine-grained) 이해를 얻는다.

모델 패밀리

변형 MoE LLM 활성 파라미터
DeepSeek-VL2-Tiny 3B 1.0B
DeepSeek-VL2-Small 16B 2.8B
DeepSeek-VL2 27B 4.5B
  • 총 파라미터는 MoE라 크지만, 실제 연산에 쓰는 활성 파라미터는 1~4.5B으로 작다(효율의 핵심).

결과

Figure 1. 활성 파라미터 대비 평균 성능(MMBench v1.1·MMStar·MMMU·MathVista·AI2D·OCRBench 평균). DeepSeek-VL2는 비슷하거나 적은 활성 파라미터로 오픈 dense·MoE 모델과 대등/우위.
  • 효율-성능 프런티어 — 비슷하거나 적은 활성 파라미터로 기존 오픈 dense·MoE 모델과 대등하거나 SOTA.
  • 강점 영역 — VQA·OCR·문서/표/차트 이해·시각 추론, 그리고 새로 얻은 visual grounding·GUI 인식.

한 줄 정리 & 의의

  • MoE로 효율을 챙긴 동적 고해상도 VLM. ① 단일 SigLIP + 동적 타일링(고정 해상도 탈피) ② DeepSeekMoE + MLA(희소 연산 + KV 압축) → 활성 파라미터 1~4.5B로 강력.
  • 차별점. InternVL 2.5큰 dense ViT + 타일링으로 스케일했다면, DeepSeek-VL2는 LLM 쪽을 MoE+MLA로 희소화활성 파라미터당 효율을 노린다. Qwen2-VL의 네이티브 동적 해상도와 목표(고해상도)는 같되, 수단이 타일링+MoE.
  • 위치(세대). G4(Native Multimodal) — 동적 고해상도 + 효율(MoE) 노선. → VLM 개요