[InternVL3.5] Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency
Weiyun Wang, Zhangwei Gao, … Gen Luo · InternVL Team, Shanghai AI Laboratory
한 줄 요약. InternVL3의 후속. 아키텍처(ViT-MLP-LLM)·네이티브 사전학습은 잇되, 추론·효율을 정조준한 세 가지가 핵심 — ① Cascade RL: offline RL → online RL 2단계(coarse-to-fine)로 추론을 안정·확장적으로 강화(MMMU·MathVista 큰 향상). ② ViR(Visual Resolution Router): 시각 토큰 해상도를 내용에 따라 동적 선택해 성능 손실 거의 없이 비용↓. ③ DvD(Decoupled Vision-Language Deployment): 비전 인코더와 LLM을 다른 GPU에 분리·병렬 배치. 그 결과 InternVL3 대비 추론 +16.0%, 추론 속도 4.05×, 게다가 GUI·embodied 에이전트까지. 최대 모델 241B-A28B는 오픈 SOTA로 GPT-5와의 격차를 좁힘.
배경
MLLM의 화두는 이제 단순 이해를 넘어 추론·에이전트 같은 복잡·현실 과제다. 여기서 상용 모델과 오픈 모델의 격차가 크고, 이를 줄이려 RL이 주목받지만 — MLLM용 안정적·효율적·확장적인 RL 프레임워크는 여전히 미해결이었다.
- InternVL3가 네이티브 멀티모달 사전학습을 세웠다면,
- InternVL3.5는 그 위에서 추론(RL) 과 추론 효율(속도) 을 끌어올리는 데 집중한다.
핵심 — 추론과 효율, 두 갈래
offline RL(MPO)로 안정적 워밍업 → online RL(GSPO)로 출력 분포를 정교화. coarse-to-fine 2단계로 추론 능력을 안정·확장적으로 강화. 1B~241B 전 규모에서 일관된 향상.
Visual Resolution Router — 패치의 의미 내용에 따라 시각 토큰 압축률(해상도)을 동적 선택. 성능 거의 그대로 비용↓. 가벼운 ViCO(Visual Consistency Learning)로 통합 → 효율판 InternVL3.5-Flash.
비전 인코더(ViT)와 LLM을 별도 GPU/서버로 분리. 직렬 실행의 병목을 없애고 ViT 연산을 LLM prefill/decode와 병렬·비동기로 겹쳐 처리 속도↑.
학습 레시피 — 어디에 RL이 붙나
native 사전학습은 InternVL3에서 그대로 잇고, 후처리에 Cascade RL을 넣은 게 InternVL3.5의 차이다.
| 단계 | 무엇을 |
|---|---|
| ① Native Pre-training | 비전-언어 정렬(InternVL3의 네이티브 사전학습 계승) |
| ② SFT | 고품질 대화 데이터로 downstream 적응 |
| ③ Cascade RL | offline RL → online RL로 추론 강화 |
| (Flash) ViCO | ViR을 통합해 효율판 InternVL3.5-Flash 구성 |
결과
- 추론 +16.0%, 속도 4.05× — InternVL3 대비. Cascade RL이 추론을, ViR+DvD가 속도를 책임진다.
- 새 능력 — GUI 상호작용·embodied agency.
- 오픈 SOTA — 241B-A28B(MoE)가 general·reasoning·text·agentic 전반 오픈 SOTA, GPT-5와의 격차 축소.
한 줄 정리 & 의의
- InternVL3를 추론·효율로 끌어올린 후속. ① Cascade RL(offline→online 추론) ② ViR(동적 해상도) ③ DvD(비전·언어 분리 배치) → 추론 +16%·속도 4.05×.
- 차별점. InternVL3가 학습 패러다임(native pre-training) 을 바꿨다면, InternVL3.5는 그 위에 RL 기반 추론 강화 + 추론 효율(ViR/DvD) 을 더한 것. InternVL 2.5의 test-time scaling 계보를 본격 RL로 확장한 셈.
- 위치(세대). G4(Native Multimodal) 최신 — 추론·에이전트·효율로 상용 격차를 좁히는 오픈 프런티어. → VLM 개요