[InternVL3] Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models

VLM G4 arXiv 2025

Jinguo Zhu, Weiyun Wang, … Wenhai Wang · Shanghai AI Lab / SenseTime / Tsinghua 외 (OpenGVLab)

arXiv GitHub

한 줄 요약. InternVL 2.5의 후속, 핵심은 네이티브 멀티모달 사전학습(native multimodal pre-training). 기존처럼 다 만든 텍스트 LLM에 비전을 나중에 붙이는(post-hoc) 게 아니라, 텍스트 코퍼스 + 멀티모달 데이터를 단일 사전학습 단계에서 함께 학습해 언어·시각 능력을 동시에 얻는다(post-hoc의 정렬 난점을 회피). 여기에 ① 긴 멀티모달 컨텍스트용 V2PE(가변 시각 위치 인코딩), ② 후처리 SFT + MPO(mixed preference optimization), ③ test-time scaling을 더했다. InternVL3-78B는 MMMU 72.2 — 오픈 MLLM 신기록, GPT-4o·Claude 3.5 Sonnet·Gemini 2.5 Pro와 경쟁하면서 순수 언어 능력도 유지.

배경

대부분의 MLLM(오픈·상용 모두)은 텍스트 전용 LLM을 먼저 만들고, 뒤에 다단계 파이프라인으로 비전을 붙여 멀티모달로 개조한다(post-hoc).

  • 이 “나중에 붙이기”는 언어 ↔ 시각 정렬이 까다롭고 단계가 복잡하다.
  • InternVL 2.5까지도 이 골격(ViT-MLP-LLM을 적응)이었다.

그럼 비전을 나중에 붙이지 말고, 사전학습 처음부터 텍스트와 멀티모달을 함께 학습하면 정렬 문제가 사라지지 않을까? (cf. Gemini의 “from the beginning”을 오픈 InternVL 계열로)

Figure 2. OpenCompass 멀티모달 리더보드. InternVL3가 Qwen2.5-VL 시리즈와 GPT-4o 등 상용 모델을 크게 앞서고, 78B는 Gemini-2.5-Pro와도 경쟁한다.

핵심 아이디어

① 네이티브 멀티모달 사전학습

단일 사전학습 단계에서 순수 텍스트 코퍼스 + 다양한 멀티모달 데이터를 함께 노출 → 언어·시각을 동시에 습득. post-hoc 정렬 단계의 복잡성·난점을 제거.

② V2PE

가변 시각 위치 인코딩(variable visual position encoding) — 시각 토큰에 더 작은 위치 증분을 줘 긴 멀티모달 컨텍스트를 효율적으로 수용.

③ MPO + Test-time scaling

후처리로 SFT + MPO(mixed preference optimization)로 선호 정렬, 추론 시 test-time scaling(예: Best-of-N + VisualPRM critic)으로 어려운 문제 성능↑.

“native pre-training”이 InternVL 2.5와 다른 점

아키텍처(ViT-MLP-LLM)는 비슷하다. 바뀐 건 학습 순서다.

  InternVL 2.5 (post-hoc) InternVL3 (native)
시작점 완성된 텍스트 LLM에 비전을 나중에 정렬 처음부터 텍스트+멀티모달 공동
단계 다단계 적응 파이프라인 단일 사전학습 단계에서 동시 습득
정렬 post-hoc 정렬(난점) 사전학습에 내재 → 정렬 부담↓
언어 능력 VL 튜닝 중 손상 우려 텍스트 코퍼스 함께 → 언어 유지
  • Gemini가 처음 보인 “처음부터 함께 학습” 발상을, 오픈 + ViT-MLP-LLM 골격 위에서 실현한 셈.

결과

Table 2. 멀티모달 추론·수학 벤치마크(MMMU·MathVista·MathVision·MathVerse 등). InternVL3가 동급 오픈 모델을 앞서고, test-time scaling(VisualPRM Best-of-8)으로 추가 향상.
  • 오픈 MMMU 신기록 — InternVL3-78B가 72.2로 오픈 MLLM SOTA, GPT-4o·Claude 3.5 Sonnet·Gemini 2.5 Pro와 경쟁.
  • 언어 유지 — 멀티모달 학습에도 순수 언어 능력을 보존(네이티브 사전학습 + 텍스트 코퍼스 병행 덕).
  • 풀 라인업 — 1B~78B, 데이터·가중치 공개.

한 줄 정리 & 의의

  • 오픈 계열에 네이티브 멀티모달 사전학습을 가져온 InternVL. 텍스트+멀티모달을 단일 단계에서 공동 학습(post-hoc 탈피) + V2PE(긴 컨텍스트) + MPO·test-time scaling.
  • 차별점. InternVL 2.5완성된 LLM을 적응(post-hoc)했다면, InternVL3는 사전학습부터 함께 — 그래서 정렬이 쉬워지고 언어 능력도 유지. 같은 G4의 Qwen2.5-VL해상도·시간·에이전트 노선이라면, InternVL3는 학습 패러다임(native pre-training) 노선.
  • 위치(세대). G4(Native Multimodal) — 이름 그대로 “네이티브”를 학습 단계에서 구현. → VLM 개요