[InternVL 2.5] Expanding Performance Boundaries with Model, Data, and Test-Time Scaling
Zhe Chen, Weiyun Wang, … Wenhai Wang · Shanghai AI Lab / SenseTime / Tsinghua 외 (OpenGVLab)
한 줄 요약. InternVL 계보의 오픈 MLLM 시리즈. 아키텍처는 InternVL 2.0과 동일(ViT-MLP-LLM)하게 두고, 세 가지 스케일링 축을 체계적으로 민 게 핵심 — ① 모델(InternViT를 6B까지) ② 데이터(2.0 대비 2배 + 엄격한 정제) ③ test-time(CoT + majority voting). 결과: 오픈 최초로 MMMU 70% 돌파(78B, CoT로 +3.7%p)하며 GPT-4o·Claude 3.5 Sonnet급. 1B~78B 패밀리.
배경
오픈 MLLM은 상용 모델(GPT-4o·Claude 3.5 Sonnet)과 성능 격차가 있었고, “무엇을 어떻게 키워야 격차가 줄어드는지” 가 불분명했다.
- 비전 인코더·LLM·데이터·추론 시간 중 무엇을 키우는 게 효과적인가?
- 특히 오픈 MLLM은 CoT(사고 사슬)를 쓰면 오히려 성능이 떨어지는 경향이 있었다.
아키텍처를 새로 바꾸기보다, 모델·데이터·test-time 세 축의 스케일링을 체계적으로 탐구해 격차를 좁히자.
아키텍처 — 바꾼 게 아니라 “그대로” 둔 게 포인트
InternVL 2.5는 전작과 아키텍처가 같다. 성능은 아키텍처가 아니라 스케일링·데이터·학습 전략에서 나온다는 게 논문의 메시지.
- ViT-MLP-LLM — InternViT-300M/6B(비전) + 2-layer MLP(projector) + LLM(InternLM 2.5 / Qwen 2.5).
- 동적 고해상도 타일링 — 이미지를 종횡비·해상도에 맞춰 448×448 타일로 쪼개고 thumbnail을 붙임(InternVL 1.5부터).
- Pixel unshuffle — 타일당 1024 시각 토큰을 256으로 1/4 압축 → 고해상도를 싸게 처리.
- 멀티이미지·비디오 데이터 지원(2.0부터).
핵심 — 세 가지 스케일링 축
6B 비전 인코더가 학습 데이터 의존을 크게 줄인다 — 78B(6B ViT)가 Qwen2-VL-72B(600M ViT)를 학습 토큰 1/10로 능가. progressive scaling: 작은 LLM으로 학습한 ViT를 큰 LLM에 싸게 이식.
데이터를 2.0의 2배로 늘리되 엄격히 필터링(반복·이상 샘플 제거). 그 결과 CoT 추론(MMMU·OlympiadBench)에서 큰 향상 — 양보다 깨끗함이 중요.
어려운 멀티모달 QA에서 CoT + majority voting으로 추론 시간을 더 써 성능을 올림. 78B가 MMMU 70.1%(direct 대비 +3.7%p), 오픈 최초 70%+.
결과
- 오픈 최초 MMMU 70%+ — 78B가 CoT로 70.1%, 상용 모델과의 격차를 좁힘.
- 전 영역 경쟁력 — 문서 이해·멀티이미지/비디오·실세계 이해·환각 검출·그라운딩·다국어·순수 언어까지 폭넓게 SOTA급.
- 효율 — 큰 ViT 덕에 적은 학습 토큰으로 더 높은 성능(데이터 탐색 비용 절감).
한 줄 정리 & 의의
- 아키텍처는 그대로, 스케일링으로 끌어올린 오픈 MLLM. ① 모델(6B ViT) ② 데이터(2배+정제) ③ test-time(CoT+voting) → 오픈 최초 MMMU 70%+.
- 차별점. InternVL(1.0)이 “6B 비전 인코더 + 미들웨어”로 인코더·LLM 불균형을 처음 푼 것이라면, 2.5는 그 ViT-MLP-LLM 골격 위에서 무엇을 키워야 효과적인지(scaling law) 를 규명. Qwen2-VL이 작은 ViT + 네이티브 동적 해상도라면, InternVL 2.5는 큰 ViT + 타일링으로 학습 토큰 1/10의 효율을 보였다.
- 위치(세대). G4(Native Multimodal) — 동적 고해상도·멀티이미지·비디오 + 스케일링 노선. → VLM 개요