Overview
VLM
BLIP G1 ICML 2022
Flamingo G2 NeurIPS 2022
BLIP-2 G2 ICML 2023
Kosmos-1 G2 arXiv 2023
LLaVA G3 NeurIPS 2023
MiniGPT-4 G3 arXiv 2023
InstructBLIP G3 NeurIPS 2023
Qwen-VL G3 arXiv 2023
LLaVA-1.5 G3 CVPR 2024
Gemini G4 arXiv 2023
InternVL G3 CVPR 2024
LLaVA-OneVision G4 arXiv 2024
Qwen2-VL G4 arXiv 2024
InternVL 2.5 G4 arXiv 2024
DeepSeek-VL2 G4 arXiv 2024
Qwen2.5-VL G4 arXiv 2025
InternVL3 G4 arXiv 2025
InternVL3.5 G4 arXiv 2025
Qwen3-VL G4 arXiv 2025
Modality Encoder
CLIP ICML 2021
EVA-CLIP arXiv 2023
Input Projector
P-Former NeurIPS 2023

Overview
Pruning
DynamicViT NeurIPS 2021
EViT ICLR 2022
Evo-ViT AAAI 2022
ATS ECCV 2022
AS-ViT IJCAI 2023
TPS CVPR 2023
Zero-TPrune CVPR 2024
STAR ICLR 2024
Frequency-Aware TR NeurIPS 2025
Token Cropr CVPR 2025
Merging
ToMe ICLR 2023
DTEM NeurIPS 2024
MCTF CVPR 2024
Pooling
TokenLearner NeurIPS 2021
Token Pooling WACV 2023
Hybrid
DiffRate ICCV 2023
Token Fusion (ToFu) WACV 2024

Efficient VLM (0)

Overview

[Qwen2.5-VL] Technical Report

arXiv 2025

2025 · vlm · vlm

VLM G4 arXiv 2025

Qwen Team · Alibaba Group

arXiv GitHub

한 줄 요약. Qwen2-VL을 정련한 플래그십. 네 가지 — ① 비전 인코더에 window attention(대부분 층, 4개 층만 full) → 네이티브 해상도를 유지하면서 비용을 선형으로. ② dynamic FPS 샘플링: 동적 해상도를 시간축까지 확장(다양한 프레임레이트). ③ MRoPE를 절대 시간에 정렬: Qwen2-VL은 시간 ID가 프레임 수에 묶여 속도/절대 시각을 못 담았는데, 절대 시간에 맞춰 초 단위 이벤트 위치까지. ④ 사전학습 데이터 1.2T→4T 토큰. 그 결과 omni-document 파싱·정밀 grounding·수 시간 비디오·컴퓨터/모바일 에이전트. 72B는 GPT-4o·Claude 3.5 Sonnet급(문서·다이어그램 특히 강함), 3B/7B도 동급 우위.

배경

LVLM은 “샌드위치 쿠키의 가운데 층” 같다 — 두루 잘하지만 세밀한(fine-grained) 시각 과제에서 탁월하진 못했다. Qwen2.5-VL은 그 세밀 인식을 토대로 깔고, 그 위에 에이전트·멀티모달 추론을 얹는 걸 목표로 한다.

직전 Qwen2-VL이 네이티브 동적 해상도 + MRoPE를 도입했지만,
- 네이티브 해상도는 입력 크기에 따라 연산이 제곱으로 불균형하게 커지고,
- MRoPE의 시간 ID가 프레임 수에 묶여 있어 영상의 속도·절대 시각을 제대로 못 담았다.

그럼 인코더 비용을 선형으로 누르고(window attention), 시간 표현을 절대 시간에 맞추면 — 고해상도·장시간 영상·에이전트까지 한 모델로 갈 수 있지 않을까?

Figure 1. Qwen2.5-VL 프레임워크. 비전 인코더는 네이티브 해상도 입력 + dynamic FPS 샘플링을 지원하고, 크기·FPS가 다른 입력을 길이가 다른 토큰열로 동적 매핑한다. MRoPE의 시간 ID를 절대 시간에 정렬해 사건의 속도·정확한 순간을 이해한다. ViT는 SwiGLU·RMSNorm·window attention으로 재설계.

핵심 — Qwen2-VL에서 무엇을 바꿨나

① Window Attention ViT (효율)

네이티브 해상도는 토큰 수가 많아 full attention이면 제곱 비용. 대부분 층을 window attention(최대 112×112=8×8 패치)으로, 단 4개 층만 full → 비용이 패치 수에 선형. ViT는 from scratch로 재설계(2D-RoPE·RMSNorm·SwiGLU, LLM과 설계 통일).

② Dynamic FPS 샘플링 (시간축 확장)

Qwen2-VL의 동적 해상도를 시간 차원으로 확장. 다양한 프레임레이트로 샘플링해, 짧은 클립부터 수 시간 영상까지 일관되게 이해.

③ MRoPE × 절대 시간

Qwen2-VL은 시간 ID가 프레임 수에 묶여 속도·절대 시각을 못 담았다. Qwen2.5-VL은 시간 ID를 절대 시간(타임스탬프)에 정렬 → ID 간격으로 시간의 흐름을 학습, FPS가 달라도 일관 + 초 단위 grounding. (텍스트 timestamp나 별도 head 불필요)

④ 데이터 스케일 1.2T→4T

사전학습 토큰을 약 3.4배로. OCR·문서 파싱·localization·비디오·에이전트 상호작용 등 다양·고품질 데이터.

새로 강해진 능력

능력	무엇이 새로운가
Omni-document 파싱	텍스트 인식을 넘어 손글씨·표·차트·화학식·악보까지, 다국어·다장면 문서
정밀 grounding	bbox + point로 검출·지목·카운팅, 절대 좌표·JSON 형식(상대 좌표 X)
초장시간 비디오	동적 해상도를 시간축으로 → 수 시간 영상 이해 + 초 단위 이벤트 구간 추출
에이전트	휴대폰·컴퓨터 화면을 인식·추론·조작(함수 호출 액션 공간, 멀티스텝)

결과

Table 3. Qwen2.5-VL vs SOTA. 72B가 GPT-4o·Claude 3.5 Sonnet과 대등/우위(특히 문서·다이어그램). 3B·7B도 동급 경쟁 모델을 능가.

Table 8. 비디오 벤치마크. dynamic FPS + 절대 시간 MRoPE 덕에 장시간·시간 grounding에서 강세.

72B = 프런티어급 — GPT-4o·Claude 3.5 Sonnet과 대등, 문서·다이어그램 이해에서 특히 우위. task별 파인튜닝 없이 도메인 일반화.
소형도 강함 — 3B(엣지)·7B가 동급 경쟁 모델 능가, Qwen2.5 LLM의 언어 능력도 유지.

한 줄 정리 & 의의

Qwen2-VL의 정련판. ① window-attention ViT(선형 비용) ② dynamic FPS ③ MRoPE 절대 시간 정렬 ④ 4T 토큰 → 문서·grounding·장시간 비디오·에이전트.
차별점. Qwen2-VL이 네이티브 동적 해상도 + MRoPE를 처음 세웠다면, Qwen2.5-VL은 그 위에서 효율(window attn) 과 시간 표현(절대 시간) 을 정조준해 영상·에이전트로 확장. InternVL 2.5(큰 dense ViT 스케일)·DeepSeek-VL2(MoE 효율)와 같은 G4 시기의 다른 노선.
위치(세대). G4(Native Multimodal)의 최신 — 네이티브 해상도·시간축·에이전트까지. → VLM 개요