Overview
VLM
BLIP G1 ICML 2022
Flamingo G2 NeurIPS 2022
BLIP-2 G2 ICML 2023
Kosmos-1 G2 arXiv 2023
LLaVA G3 NeurIPS 2023
MiniGPT-4 G3 arXiv 2023
InstructBLIP G3 NeurIPS 2023
Qwen-VL G3 arXiv 2023
LLaVA-1.5 G3 CVPR 2024
Gemini G4 arXiv 2023
InternVL G3 CVPR 2024
LLaVA-OneVision G4 arXiv 2024
Qwen2-VL G4 arXiv 2024
InternVL 2.5 G4 arXiv 2024
DeepSeek-VL2 G4 arXiv 2024
Qwen2.5-VL G4 arXiv 2025
InternVL3 G4 arXiv 2025
InternVL3.5 G4 arXiv 2025
Qwen3-VL G4 arXiv 2025
Modality Encoder
CLIP ICML 2021
EVA-CLIP arXiv 2023
Input Projector
P-Former NeurIPS 2023

Overview
Pruning
DynamicViT NeurIPS 2021
EViT ICLR 2022
Evo-ViT AAAI 2022
ATS ECCV 2022
AS-ViT IJCAI 2023
TPS CVPR 2023
Zero-TPrune CVPR 2024
STAR ICLR 2024
Frequency-Aware TR NeurIPS 2025
Token Cropr CVPR 2025
Merging
ToMe ICLR 2023
DTEM NeurIPS 2024
MCTF CVPR 2024
Pooling
TokenLearner NeurIPS 2021
Token Pooling WACV 2023
Hybrid
DiffRate ICCV 2023
Token Fusion (ToFu) WACV 2024

Efficient VLM (0)

Overview

[Qwen3-VL] Technical Report

arXiv 2025

2025 · vlm · vlm

VLM G4 arXiv 2025

Qwen Team · Alibaba Group

arXiv GitHub

한 줄 요약. Qwen 비전-언어 시리즈의 최신 플래그십. Qwen2.5-VL과 같은 3-모듈 구조(인코더+MLP merger+LLM, Qwen3 기반)에 네이티브 256K interleaved 컨텍스트(텍스트·이미지·비디오)와 dense(2/4/8/32B) + MoE(30B-A3B/235B-A22B) 라인업. 아키텍처 3대 업그레이드 — ① interleaved-MRoPE(이미지·영상의 공간·시간 모델링 강화) ② DeepStack(ViT의 여러 층 특징을 LLM 대응 층에 주입 → 정렬 강화) ③ 텍스트 기반 시간 정렬(T-RoPE→명시적 텍스트 타임스탬프, 정밀 temporal grounding). text/멀티모달 균형용 square-root reweighting, thinking·non-thinking 두 변형. 순수 텍스트·롱컨텍스트·멀티모달 추론(MMMU·MathVista·MathVision) 모두 선두권.

배경

VLM은 시각 인식 → 멀티모달 추론으로 진화하며 롱컨텍스트·STEM·GUI·에이전트로 응용이 넓어졌다. 다만 멀티모달을 키우면서도 바탕 LLM의 언어 능력을 깎으면 안 된다(텍스트 벤치마크에서 동급 텍스트 모델을 따라잡거나 능가해야).

직전 Qwen2.5-VL이 네이티브 해상도·시간축·에이전트를 세웠다면,
Qwen3-VL은 그 위에서 롱컨텍스트(256K)·시각-언어 정렬·시간 표현·언어 보존을 한 단계 더 민다.

Figure 1. Qwen3-VL 프레임워크. 네이티브 동적 해상도 비전 인코더 → 가변 길이 시각 토큰. DeepStack이 ViT의 여러 층 토큰을 LLM 앞쪽 층들에 주입하고, interleaved MRoPE로 위치를, 텍스트 타임스탬프 토큰으로 영상의 시간 구조를 인코딩한다.

핵심 — 세 가지 아키텍처 업그레이드

① Interleaved-MRoPE

Qwen2.5-VL의 MRoPE(시간·높이·너비)를 개선 — 균형 잡힌 주파수 스펙트럼으로 이미지·비디오의 공간·시간을 더 견고하게 인코딩.

② DeepStack

ViT 세 층의 특징을 각각 merger로 투영해 LLM 앞쪽 세 층의 hidden state에 더한다. 마지막 층 특징만 쓰던 방식 대비 다층(multi-level) 시각 정보를 살려 정렬·지각을 강화.

③ 텍스트 기반 시간 정렬

비디오 시간 인코딩을 T-RoPE → 명시적 텍스트 타임스탬프 토큰으로 진화. 프레임 시퀀스의 시간 구조를 더 정확히 포착해 temporal grounding↑.

그 외 핵심

항목	내용
네이티브 256K 컨텍스트	텍스트·이미지·비디오 interleaved 입력을 256K 토큰까지 — 긴 문서·영상의 보존·검색·교차참조
라인업	dense 2B/4B/8B/32B + MoE 30B-A3B / 235B-A22B (지연-품질 트레이드오프)
square-root reweighting	text-only vs 멀티모달 학습 목표 균형 → 언어 능력 손상 없이 멀티모달 향상
thinking / non-thinking	후처리를 두 변형으로 분기 — thinking은 복잡 추론에서 더 강함
다국어 OCR	지원 언어를 10개(2.5-VL) → 39개로 확장(32개 언어에서 70%+ 정확도)

결과

Table 5. Qwen3-VL 벤치마크 성능. dense·MoE 양쪽에서 비슷한 토큰 예산·지연 대비 선두권 — 단일/멀티이미지·비디오, MMMU·시각 수학(MathVista·MathVision).

세 영역 모두 선두 — ① 순수 텍스트(동급 텍스트 백본 능가 사례) ② 롱컨텍스트(256K 보존·검색) ③ 멀티모달 추론(MMMU·MathVista·MathVision).
dense·MoE 모두 우위 — 비슷한 토큰 예산·지연 제약에서 더 높은 성능.

한 줄 정리 & 의의

Qwen 시리즈 최신·최강 VLM. 네이티브 256K interleaved + dense/MoE 라인업, 3대 업그레이드(interleaved-MRoPE · DeepStack · 텍스트 타임스탬프), 언어 보존(square-root reweighting), thinking 변형.
차별점. Qwen2.5-VL이 window attn·절대 시간·에이전트를 세웠다면, Qwen3-VL은 DeepStack(다층 ViT 융합)·256K 롱컨텍스트·텍스트 타임스탬프로 정렬·시간·길이를 끌어올렸다. 같은 G4 최신의 InternVL3가 학습 패러다임(native pre-training) 노선이라면, Qwen3-VL은 아키텍처·컨텍스트 노선.
위치(세대). G4(Native Multimodal)의 최신 — 이미지 기반 추론·에이전트·멀티모달 코드까지 노리는 파운데이션. → VLM 개요