Overview
VLM
BLIP G1 ICML 2022
Flamingo G2 NeurIPS 2022
BLIP-2 G2 ICML 2023
Kosmos-1 G2 arXiv 2023
LLaVA G3 NeurIPS 2023
MiniGPT-4 G3 arXiv 2023
InstructBLIP G3 NeurIPS 2023
Qwen-VL G3 arXiv 2023
LLaVA-1.5 G3 CVPR 2024
Gemini G4 arXiv 2023
InternVL G3 CVPR 2024
LLaVA-OneVision G4 arXiv 2024
Qwen2-VL G4 arXiv 2024
InternVL 2.5 G4 arXiv 2024
DeepSeek-VL2 G4 arXiv 2024
Qwen2.5-VL G4 arXiv 2025
InternVL3 G4 arXiv 2025
InternVL3.5 G4 arXiv 2025
Qwen3-VL G4 arXiv 2025
Modality Encoder
CLIP ICML 2021
EVA-CLIP arXiv 2023
Input Projector
P-Former NeurIPS 2023

Overview
Pruning
DynamicViT NeurIPS 2021
EViT ICLR 2022
Evo-ViT AAAI 2022
ATS ECCV 2022
AS-ViT IJCAI 2023
TPS CVPR 2023
Zero-TPrune CVPR 2024
STAR ICLR 2024
Frequency-Aware TR NeurIPS 2025
Token Cropr CVPR 2025
Merging
ToMe ICLR 2023
DTEM NeurIPS 2024
MCTF CVPR 2024
Pooling
TokenLearner NeurIPS 2021
Token Pooling WACV 2023
Hybrid
DiffRate ICCV 2023
Token Fusion (ToFu) WACV 2024

Efficient VLM (0)

Overview

[InternVL 2.5] Expanding Performance Boundaries with Model, Data, and Test-Time Scaling

arXiv 2024

2024 · vlm · vlm

VLM G4 arXiv 2024

Zhe Chen, Weiyun Wang, … Wenhai Wang · Shanghai AI Lab / SenseTime / Tsinghua 외 (OpenGVLab)

arXiv GitHub

한 줄 요약. InternVL 계보의 오픈 MLLM 시리즈. 아키텍처는 InternVL 2.0과 동일(ViT-MLP-LLM)하게 두고, 세 가지 스케일링 축을 체계적으로 민 게 핵심 — ① 모델(InternViT를 6B까지) ② 데이터(2.0 대비 2배 + 엄격한 정제) ③ test-time(CoT + majority voting). 결과: 오픈 최초로 MMMU 70% 돌파(78B, CoT로 +3.7%p)하며 GPT-4o·Claude 3.5 Sonnet급. 1B~78B 패밀리.

배경

오픈 MLLM은 상용 모델(GPT-4o·Claude 3.5 Sonnet)과 성능 격차가 있었고, “무엇을 어떻게 키워야 격차가 줄어드는지” 가 불분명했다.

비전 인코더·LLM·데이터·추론 시간 중 무엇을 키우는 게 효과적인가?
특히 오픈 MLLM은 CoT(사고 사슬)를 쓰면 오히려 성능이 떨어지는 경향이 있었다.

아키텍처를 새로 바꾸기보다, 모델·데이터·test-time 세 축의 스케일링을 체계적으로 탐구해 격차를 좁히자.

Figure 2. 전체 아키텍처. InternVL 1.5·2.0과 동일한 'ViT-MLP-LLM' 패러다임 — InternViT-300M/6B + 2-layer MLP + 다양한 LLM. 448×448 타일을 pixel unshuffle로 1024→256 토큰으로 줄이고, 단일이미지·멀티이미지·비디오·텍스트를 함께 다룬다.

아키텍처 — 바꾼 게 아니라 “그대로” 둔 게 포인트

InternVL 2.5는 전작과 아키텍처가 같다. 성능은 아키텍처가 아니라 스케일링·데이터·학습 전략에서 나온다는 게 논문의 메시지.

ViT-MLP-LLM — InternViT-300M/6B(비전) + 2-layer MLP(projector) + LLM(InternLM 2.5 / Qwen 2.5).
동적 고해상도 타일링 — 이미지를 종횡비·해상도에 맞춰 448×448 타일로 쪼개고 thumbnail을 붙임(InternVL 1.5부터).
Pixel unshuffle — 타일당 1024 시각 토큰을 256으로 1/4 압축 → 고해상도를 싸게 처리.
멀티이미지·비디오 데이터 지원(2.0부터).

핵심 — 세 가지 스케일링 축

① 모델 스케일링 (큰 ViT)

6B 비전 인코더가 학습 데이터 의존을 크게 줄인다 — 78B(6B ViT)가 Qwen2-VL-72B(600M ViT)를 학습 토큰 1/10로 능가. progressive scaling: 작은 LLM으로 학습한 ViT를 큰 LLM에 싸게 이식.

② 데이터 품질

데이터를 2.0의 2배로 늘리되 엄격히 필터링(반복·이상 샘플 제거). 그 결과 CoT 추론(MMMU·OlympiadBench)에서 큰 향상 — 양보다 깨끗함이 중요.

③ Test-time 스케일링

어려운 멀티모달 QA에서 CoT + majority voting으로 추론 시간을 더 써 성능을 올림. 78B가 MMMU 70.1%(direct 대비 +3.7%p), 오픈 최초 70%+.

Figure 4. 학습 파이프라인 & progressive scaling. (a) 3단계 — Stage 1(MLP warmup) → Stage 1.5(ViT 점진 학습, 선택) → Stage 2(full model instruction tuning). (b) 작은 LLM으로 학습한 ViT를 큰 LLM에 이식해 적은 비용으로 정렬.

결과

Figure 1. OpenCompass 리더보드. InternVL 2.5가 GPT-4o·Claude 3.5 Sonnet 등 상용 모델과 경쟁하는 멀티모달 성능을 보인다(다양한 크기 1B~78B).

오픈 최초 MMMU 70%+ — 78B가 CoT로 70.1%, 상용 모델과의 격차를 좁힘.
전 영역 경쟁력 — 문서 이해·멀티이미지/비디오·실세계 이해·환각 검출·그라운딩·다국어·순수 언어까지 폭넓게 SOTA급.
효율 — 큰 ViT 덕에 적은 학습 토큰으로 더 높은 성능(데이터 탐색 비용 절감).

한 줄 정리 & 의의

아키텍처는 그대로, 스케일링으로 끌어올린 오픈 MLLM. ① 모델(6B ViT) ② 데이터(2배+정제) ③ test-time(CoT+voting) → 오픈 최초 MMMU 70%+.
차별점. InternVL(1.0)이 “6B 비전 인코더 + 미들웨어”로 인코더·LLM 불균형을 처음 푼 것이라면, 2.5는 그 ViT-MLP-LLM 골격 위에서 무엇을 키워야 효과적인지(scaling law) 를 규명. Qwen2-VL이 작은 ViT + 네이티브 동적 해상도라면, InternVL 2.5는 큰 ViT + 타일링으로 학습 토큰 1/10의 효율을 보였다.
위치(세대). G4(Native Multimodal) — 동적 고해상도·멀티이미지·비디오 + 스케일링 노선. → VLM 개요