[InternVL 2.5] Expanding Performance Boundaries with Model, Data, and Test-Time Scaling

VLM G4 arXiv 2024

Zhe Chen, Weiyun Wang, … Wenhai Wang · Shanghai AI Lab / SenseTime / Tsinghua 외 (OpenGVLab)

arXiv GitHub

한 줄 요약. InternVL 계보의 오픈 MLLM 시리즈. 아키텍처는 InternVL 2.0과 동일(ViT-MLP-LLM)하게 두고, 세 가지 스케일링 축을 체계적으로 민 게 핵심 — ① 모델(InternViT를 6B까지) ② 데이터(2.0 대비 2배 + 엄격한 정제) ③ test-time(CoT + majority voting). 결과: 오픈 최초로 MMMU 70% 돌파(78B, CoT로 +3.7%p)하며 GPT-4o·Claude 3.5 Sonnet급. 1B~78B 패밀리.

배경

오픈 MLLM은 상용 모델(GPT-4o·Claude 3.5 Sonnet)과 성능 격차가 있었고, “무엇을 어떻게 키워야 격차가 줄어드는지” 가 불분명했다.

  • 비전 인코더·LLM·데이터·추론 시간 중 무엇을 키우는 게 효과적인가?
  • 특히 오픈 MLLM은 CoT(사고 사슬)를 쓰면 오히려 성능이 떨어지는 경향이 있었다.

아키텍처를 새로 바꾸기보다, 모델·데이터·test-time 세 축의 스케일링을 체계적으로 탐구해 격차를 좁히자.

Figure 2. 전체 아키텍처. InternVL 1.5·2.0과 동일한 'ViT-MLP-LLM' 패러다임 — InternViT-300M/6B + 2-layer MLP + 다양한 LLM. 448×448 타일을 pixel unshuffle로 1024→256 토큰으로 줄이고, 단일이미지·멀티이미지·비디오·텍스트를 함께 다룬다.

아키텍처 — 바꾼 게 아니라 “그대로” 둔 게 포인트

InternVL 2.5는 전작과 아키텍처가 같다. 성능은 아키텍처가 아니라 스케일링·데이터·학습 전략에서 나온다는 게 논문의 메시지.

  • ViT-MLP-LLM — InternViT-300M/6B(비전) + 2-layer MLP(projector) + LLM(InternLM 2.5 / Qwen 2.5).
  • 동적 고해상도 타일링 — 이미지를 종횡비·해상도에 맞춰 448×448 타일로 쪼개고 thumbnail을 붙임(InternVL 1.5부터).
  • Pixel unshuffle — 타일당 1024 시각 토큰을 256으로 1/4 압축 → 고해상도를 싸게 처리.
  • 멀티이미지·비디오 데이터 지원(2.0부터).

핵심 — 세 가지 스케일링 축

① 모델 스케일링 (큰 ViT)

6B 비전 인코더가 학습 데이터 의존을 크게 줄인다 — 78B(6B ViT)가 Qwen2-VL-72B(600M ViT)를 학습 토큰 1/10로 능가. progressive scaling: 작은 LLM으로 학습한 ViT를 큰 LLM에 싸게 이식.

② 데이터 품질

데이터를 2.0의 2배로 늘리되 엄격히 필터링(반복·이상 샘플 제거). 그 결과 CoT 추론(MMMU·OlympiadBench)에서 큰 향상 — 양보다 깨끗함이 중요.

③ Test-time 스케일링

어려운 멀티모달 QA에서 CoT + majority voting으로 추론 시간을 더 써 성능을 올림. 78B가 MMMU 70.1%(direct 대비 +3.7%p), 오픈 최초 70%+.

Figure 4. 학습 파이프라인 & progressive scaling. (a) 3단계 — Stage 1(MLP warmup) → Stage 1.5(ViT 점진 학습, 선택) → Stage 2(full model instruction tuning). (b) 작은 LLM으로 학습한 ViT를 큰 LLM에 이식해 적은 비용으로 정렬.

결과

Figure 1. OpenCompass 리더보드. InternVL 2.5가 GPT-4o·Claude 3.5 Sonnet 등 상용 모델과 경쟁하는 멀티모달 성능을 보인다(다양한 크기 1B~78B).
  • 오픈 최초 MMMU 70%+ — 78B가 CoT로 70.1%, 상용 모델과의 격차를 좁힘.
  • 전 영역 경쟁력 — 문서 이해·멀티이미지/비디오·실세계 이해·환각 검출·그라운딩·다국어·순수 언어까지 폭넓게 SOTA급.
  • 효율 — 큰 ViT 덕에 적은 학습 토큰으로 더 높은 성능(데이터 탐색 비용 절감).

한 줄 정리 & 의의

  • 아키텍처는 그대로, 스케일링으로 끌어올린 오픈 MLLM. ① 모델(6B ViT) ② 데이터(2배+정제) ③ test-time(CoT+voting) → 오픈 최초 MMMU 70%+.
  • 차별점. InternVL(1.0)이 “6B 비전 인코더 + 미들웨어”로 인코더·LLM 불균형을 처음 푼 것이라면, 2.5는 그 ViT-MLP-LLM 골격 위에서 무엇을 키워야 효과적인지(scaling law) 를 규명. Qwen2-VL작은 ViT + 네이티브 동적 해상도라면, InternVL 2.5는 큰 ViT + 타일링으로 학습 토큰 1/10의 효율을 보였다.
  • 위치(세대). G4(Native Multimodal) — 동적 고해상도·멀티이미지·비디오 + 스케일링 노선. → VLM 개요