Overview
VLM
BLIP G1 ICML 2022
Flamingo G2 NeurIPS 2022
BLIP-2 G2 ICML 2023
Kosmos-1 G2 arXiv 2023
LLaVA G3 NeurIPS 2023
MiniGPT-4 G3 arXiv 2023
InstructBLIP G3 NeurIPS 2023
Qwen-VL G3 arXiv 2023
LLaVA-1.5 G3 CVPR 2024
Gemini G4 arXiv 2023
InternVL G3 CVPR 2024
LLaVA-OneVision G4 arXiv 2024
Qwen2-VL G4 arXiv 2024
InternVL 2.5 G4 arXiv 2024
DeepSeek-VL2 G4 arXiv 2024
Qwen2.5-VL G4 arXiv 2025
InternVL3 G4 arXiv 2025
InternVL3.5 G4 arXiv 2025
Qwen3-VL G4 arXiv 2025
Modality Encoder
CLIP ICML 2021
EVA-CLIP arXiv 2023
Input Projector
P-Former NeurIPS 2023

Overview
Pruning
DynamicViT NeurIPS 2021
EViT ICLR 2022
Evo-ViT AAAI 2022
ATS ECCV 2022
AS-ViT IJCAI 2023
TPS CVPR 2023
Zero-TPrune CVPR 2024
STAR ICLR 2024
Frequency-Aware TR NeurIPS 2025
Token Cropr CVPR 2025
Merging
ToMe ICLR 2023
DTEM NeurIPS 2024
MCTF CVPR 2024
Pooling
TokenLearner NeurIPS 2021
Token Pooling WACV 2023
Hybrid
DiffRate ICCV 2023
Token Fusion (ToFu) WACV 2024

Efficient VLM (0)

Overview

[InternVL3.5] Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency

arXiv 2025

2025 · vlm · vlm

VLM G4 arXiv 2025

Weiyun Wang, Zhangwei Gao, … Gen Luo · InternVL Team, Shanghai AI Laboratory

arXiv GitHub

한 줄 요약. InternVL3의 후속. 아키텍처(ViT-MLP-LLM)·네이티브 사전학습은 잇되, 추론·효율을 정조준한 세 가지가 핵심 — ① Cascade RL: offline RL → online RL 2단계(coarse-to-fine)로 추론을 안정·확장적으로 강화(MMMU·MathVista 큰 향상). ② ViR(Visual Resolution Router): 시각 토큰 해상도를 내용에 따라 동적 선택해 성능 손실 거의 없이 비용↓. ③ DvD(Decoupled Vision-Language Deployment): 비전 인코더와 LLM을 다른 GPU에 분리·병렬 배치. 그 결과 InternVL3 대비 추론 +16.0%, 추론 속도 4.05×, 게다가 GUI·embodied 에이전트까지. 최대 모델 241B-A28B는 오픈 SOTA로 GPT-5와의 격차를 좁힘.

배경

MLLM의 화두는 이제 단순 이해를 넘어 추론·에이전트 같은 복잡·현실 과제다. 여기서 상용 모델과 오픈 모델의 격차가 크고, 이를 줄이려 RL이 주목받지만 — MLLM용 안정적·효율적·확장적인 RL 프레임워크는 여전히 미해결이었다.

InternVL3가 네이티브 멀티모달 사전학습을 세웠다면,
InternVL3.5는 그 위에서 추론(RL) 과 추론 효율(속도) 을 끌어올리는 데 집중한다.

Figure 2. 전체 아키텍처. 이전 버전과 같은 'ViT-MLP-LLM'. InternVL3.5-Flash는 여기에 Visual Resolution Router(ViR)를 더해, 픽셀 셔플 압축률을 내용에 따라 골라 시각 토큰 수를 줄인다.

핵심 — 추론과 효율, 두 갈래

① Cascade RL (추론)

offline RL(MPO)로 안정적 워밍업 → online RL(GSPO)로 출력 분포를 정교화. coarse-to-fine 2단계로 추론 능력을 안정·확장적으로 강화. 1B~241B 전 규모에서 일관된 향상.

② ViR (효율 · 해상도)

Visual Resolution Router — 패치의 의미 내용에 따라 시각 토큰 압축률(해상도)을 동적 선택. 성능 거의 그대로 비용↓. 가벼운 ViCO(Visual Consistency Learning)로 통합 → 효율판 InternVL3.5-Flash.

③ DvD (효율 · 배치)

비전 인코더(ViT)와 LLM을 별도 GPU/서버로 분리. 직렬 실행의 병목을 없애고 ViT 연산을 LLM prefill/decode와 병렬·비동기로 겹쳐 처리 속도↑.

학습 레시피 — 어디에 RL이 붙나

native 사전학습은 InternVL3에서 그대로 잇고, 후처리에 Cascade RL을 넣은 게 InternVL3.5의 차이다.

단계	무엇을
① Native Pre-training	비전-언어 정렬(InternVL3의 네이티브 사전학습 계승)
② SFT	고품질 대화 데이터로 downstream 적응
③ Cascade RL	offline RL → online RL로 추론 강화
(Flash) ViCO	ViR을 통합해 효율판 InternVL3.5-Flash 구성

Figure 3. 학습 레시피. ① native pre-training → ② SFT → ③ Cascade RL(추론 강화). Flash는 ViR을 consistency/router 학습으로 추가 통합.

Figure 4. Decoupled Vision-Language Deployment(DvD). 기존엔 ViT→MLP→LLM을 직렬 실행해 느렸지만, DvD는 ViT와 LLM을 분리·비동기 병렬로 돌려 자원 충돌을 줄이고 속도를 높인다.

결과

Figure 1. InternVL3.5 vs 선도 MLLM(빗금=상용). general·reasoning·text·agentic 벤치마크 평균. 241B-A28B가 오픈 SOTA로 상용 모델과의 격차를 좁힌다.

추론 +16.0%, 속도 4.05× — InternVL3 대비. Cascade RL이 추론을, ViR+DvD가 속도를 책임진다.
새 능력 — GUI 상호작용·embodied agency.
오픈 SOTA — 241B-A28B(MoE)가 general·reasoning·text·agentic 전반 오픈 SOTA, GPT-5와의 격차 축소.

한 줄 정리 & 의의

InternVL3를 추론·효율로 끌어올린 후속. ① Cascade RL(offline→online 추론) ② ViR(동적 해상도) ③ DvD(비전·언어 분리 배치) → 추론 +16%·속도 4.05×.
차별점. InternVL3가 학습 패러다임(native pre-training) 을 바꿨다면, InternVL3.5는 그 위에 RL 기반 추론 강화 + 추론 효율(ViR/DvD) 을 더한 것. InternVL 2.5의 test-time scaling 계보를 본격 RL로 확장한 셈.
위치(세대). G4(Native Multimodal) 최신 — 추론·에이전트·효율로 상용 격차를 좁히는 오픈 프런티어. → VLM 개요