[InternVL3.5] Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency

VLM G4 arXiv 2025

Weiyun Wang, Zhangwei Gao, … Gen Luo · InternVL Team, Shanghai AI Laboratory

arXiv GitHub

한 줄 요약. InternVL3의 후속. 아키텍처(ViT-MLP-LLM)·네이티브 사전학습은 잇되, 추론·효율을 정조준한 세 가지가 핵심 — ① Cascade RL: offline RL → online RL 2단계(coarse-to-fine)로 추론을 안정·확장적으로 강화(MMMU·MathVista 큰 향상). ② ViR(Visual Resolution Router): 시각 토큰 해상도를 내용에 따라 동적 선택해 성능 손실 거의 없이 비용↓. ③ DvD(Decoupled Vision-Language Deployment): 비전 인코더와 LLM을 다른 GPU에 분리·병렬 배치. 그 결과 InternVL3 대비 추론 +16.0%, 추론 속도 4.05×, 게다가 GUI·embodied 에이전트까지. 최대 모델 241B-A28B는 오픈 SOTA로 GPT-5와의 격차를 좁힘.

배경

MLLM의 화두는 이제 단순 이해를 넘어 추론·에이전트 같은 복잡·현실 과제다. 여기서 상용 모델과 오픈 모델의 격차가 크고, 이를 줄이려 RL이 주목받지만 — MLLM용 안정적·효율적·확장적인 RL 프레임워크는 여전히 미해결이었다.

  • InternVL3네이티브 멀티모달 사전학습을 세웠다면,
  • InternVL3.5는 그 위에서 추론(RL)추론 효율(속도) 을 끌어올리는 데 집중한다.
Figure 2. 전체 아키텍처. 이전 버전과 같은 'ViT-MLP-LLM'. InternVL3.5-Flash는 여기에 Visual Resolution Router(ViR)를 더해, 픽셀 셔플 압축률을 내용에 따라 골라 시각 토큰 수를 줄인다.

핵심 — 추론과 효율, 두 갈래

① Cascade RL (추론)

offline RL(MPO)로 안정적 워밍업 → online RL(GSPO)로 출력 분포를 정교화. coarse-to-fine 2단계로 추론 능력을 안정·확장적으로 강화. 1B~241B 전 규모에서 일관된 향상.

② ViR (효율 · 해상도)

Visual Resolution Router — 패치의 의미 내용에 따라 시각 토큰 압축률(해상도)을 동적 선택. 성능 거의 그대로 비용↓. 가벼운 ViCO(Visual Consistency Learning)로 통합 → 효율판 InternVL3.5-Flash.

③ DvD (효율 · 배치)

비전 인코더(ViT)와 LLM을 별도 GPU/서버로 분리. 직렬 실행의 병목을 없애고 ViT 연산을 LLM prefill/decode와 병렬·비동기로 겹쳐 처리 속도↑.

학습 레시피 — 어디에 RL이 붙나

native 사전학습은 InternVL3에서 그대로 잇고, 후처리에 Cascade RL을 넣은 게 InternVL3.5의 차이다.

단계 무엇을
① Native Pre-training 비전-언어 정렬(InternVL3의 네이티브 사전학습 계승)
② SFT 고품질 대화 데이터로 downstream 적응
③ Cascade RL offline RL → online RL로 추론 강화
(Flash) ViCO ViR을 통합해 효율판 InternVL3.5-Flash 구성
Figure 3. 학습 레시피. ① native pre-training → ② SFT → ③ Cascade RL(추론 강화). Flash는 ViR을 consistency/router 학습으로 추가 통합.
Figure 4. Decoupled Vision-Language Deployment(DvD). 기존엔 ViT→MLP→LLM을 직렬 실행해 느렸지만, DvD는 ViT와 LLM을 분리·비동기 병렬로 돌려 자원 충돌을 줄이고 속도를 높인다.

결과

Figure 1. InternVL3.5 vs 선도 MLLM(빗금=상용). general·reasoning·text·agentic 벤치마크 평균. 241B-A28B가 오픈 SOTA로 상용 모델과의 격차를 좁힌다.
  • 추론 +16.0%, 속도 4.05× — InternVL3 대비. Cascade RL이 추론을, ViR+DvD가 속도를 책임진다.
  • 새 능력 — GUI 상호작용·embodied agency.
  • 오픈 SOTA — 241B-A28B(MoE)가 general·reasoning·text·agentic 전반 오픈 SOTA, GPT-5와의 격차 축소.

한 줄 정리 & 의의

  • InternVL3를 추론·효율로 끌어올린 후속.Cascade RL(offline→online 추론) ② ViR(동적 해상도) ③ DvD(비전·언어 분리 배치) → 추론 +16%·속도 4.05×.
  • 차별점. InternVL3학습 패러다임(native pre-training) 을 바꿨다면, InternVL3.5는 그 위에 RL 기반 추론 강화 + 추론 효율(ViR/DvD) 을 더한 것. InternVL 2.5의 test-time scaling 계보를 본격 RL로 확장한 셈.
  • 위치(세대). G4(Native Multimodal) 최신 — 추론·에이전트·효율로 상용 격차를 좁히는 오픈 프런티어. → VLM 개요