Overview
VLM
BLIP G1 ICML 2022
Flamingo G2 NeurIPS 2022
BLIP-2 G2 ICML 2023
Kosmos-1 G2 arXiv 2023
LLaVA G3 NeurIPS 2023
MiniGPT-4 G3 arXiv 2023
InstructBLIP G3 NeurIPS 2023
Qwen-VL G3 arXiv 2023
LLaVA-1.5 G3 CVPR 2024
Gemini G4 arXiv 2023
InternVL G3 CVPR 2024
LLaVA-OneVision G4 arXiv 2024
Qwen2-VL G4 arXiv 2024
InternVL 2.5 G4 arXiv 2024
DeepSeek-VL2 G4 arXiv 2024
Qwen2.5-VL G4 arXiv 2025
InternVL3 G4 arXiv 2025
InternVL3.5 G4 arXiv 2025
Qwen3-VL G4 arXiv 2025
Modality Encoder
CLIP ICML 2021
EVA-CLIP arXiv 2023
Input Projector
P-Former NeurIPS 2023

Overview
Pruning
DynamicViT NeurIPS 2021
EViT ICLR 2022
Evo-ViT AAAI 2022
ATS ECCV 2022
AS-ViT IJCAI 2023
TPS CVPR 2023
Zero-TPrune CVPR 2024
STAR ICLR 2024
Frequency-Aware TR NeurIPS 2025
Token Cropr CVPR 2025
Merging
ToMe ICLR 2023
DTEM NeurIPS 2024
MCTF CVPR 2024
Pooling
TokenLearner NeurIPS 2021
Token Pooling WACV 2023
Hybrid
DiffRate ICCV 2023
Token Fusion (ToFu) WACV 2024

Efficient VLM (0)

Overview

[Qwen2-VL] Enhancing Vision-Language Model's Perception of the World at Any Resolution

arXiv 2024

2024 · vlm · vlm

VLM G4 arXiv 2024

Peng Wang, Shuai Bai, Sinan Tan, … Junyang Lin · Qwen Team, Alibaba Group

arXiv GitHub

한 줄 요약. Qwen-VL의 업그레이드. 두 가지가 핵심 — ① Naive Dynamic Resolution: 이미지를 고정 크기로 줄이지 않고 원해상도 그대로 받아 해상도에 비례한 가변 개수의 시각 토큰으로 변환(ViT에 2D-RoPE, 절대 위치 임베딩 제거). ② M-RoPE(Multimodal Rotary Position Embedding): 위치 인코딩을 시간·높이·너비 3축으로 분해해 텍스트·이미지·비디오를 한 좌표계로 통합. 이미지·비디오를 한 패러다임으로 학습(비디오 2fps·3D conv). ViT는 675M로 고정한 채 LLM만 2B/7B/72B로 스케일 → 72B는 GPT-4o·Claude 3.5 Sonnet급.

배경

대부분의 LVLM은 visual encoder → connector → LLM 구성에, CLIP류의 고정·frozen 인코더로 이미지를 미리 정해진 작은 해상도(예: 448²) 로 줄여서 본다. 두 가지 한계가 있다.

고정 해상도 — 작은 글자·세밀한 디테일·극단적 종횡비를 놓친다(사람은 해상도를 유동적으로 본다).
비디오를 별개 모달리티로 — 1D 위치 임베딩으론 3차원 공간 + 시간을 제대로 못 담는다.

그럼 이미지를 원해상도 그대로 받고, 이미지와 비디오의 위치(공간·시간)를 하나의 좌표계로 다루면 어떨까?

Figure 1. Qwen2-VL의 능력 — 다국어 이미지·텍스트 이해, 코드/수학 추론, 비디오 분석, 실시간 대화, 에이전트 등.

핵심 아이디어

① Naive Dynamic Resolution

어떤 해상도든 받아 해상도에 비례한 가변 토큰 수로. ViT의 절대 위치 임베딩을 빼고 2D-RoPE 도입 → 공간 스케일에 적응. MLP가 인접 2×2 토큰을 1개로 압축(224²→66 토큰).

② M-RoPE

회전 위치 임베딩을 시간·높이·너비로 분해. 텍스트=세 축 동일(≡1D-RoPE), 이미지=시간 고정+h/w, 비디오=프레임마다 시간 증가. 3D 위치를 명시적으로 모델링하고 position ID가 작아져 긴 시퀀스 외삽에 유리.

③ 통합 이미지·비디오

이미지·비디오를 한 패러다임으로 섞어 학습. 비디오 2fps 샘플링 + depth-2 3D conv(2D 패치 대신 3D 튜브)로 프레임을 늘려도 시퀀스가 안 길어짐(이미지=동일 프레임 2장).

M-RoPE — 텍스트·이미지·비디오를 한 좌표계로

기존 LLM의 1D-RoPE는 위치를 한 줄(1차원) 로만 센다. M-RoPE는 이를 3축(시간 t · 높이 h · 너비 w) 으로 쪼갠다.

입력	temporal (t)	height (h)	width (w)
텍스트	증가	t와 동일	t와 동일 (→ 1D-RoPE와 동치)
이미지	고정	토큰의 행 위치	토큰의 열 위치
비디오	프레임마다 증가	행 위치	열 위치

여러 모달리티가 섞이면 앞 모달리티의 최대 position ID + 1 에서 다음이 시작한다. 덕분에 이미지·비디오의 position ID 값이 작아져 추론 시 더 긴 시퀀스로 외삽할 수 있다.

Figure 3. M-RoPE 시연. 회전 위치 임베딩을 시간·높이·너비로 분해해 텍스트·이미지·비디오의 위치를 LLM 안에서 명시적으로 모델링한다.

아키텍처 한눈에

인코더 — 675M ViT(2D-RoPE), LLM 크기와 무관하게 고정 → ViT 연산량 일정.
커넥터 — ViT 뒤 MLP가 2×2 토큰을 1개로 합치는 merger(<|vision_start|>·<|vision_end|>로 감쌈). Qwen-VL의 cross-attn Resampler를 대체.
LLM — Qwen2, 2B / 7B / 72B. (데이터·모델 크기 양쪽으로 scaling law 탐구)

결과

Table 2. Qwen2-VL vs SOTA. 72B는 다양한 멀티모달 벤치마크에서 GPT-4o·Claude 3.5 Sonnet과 대등하거나 능가(특히 문서 이해). 2B·7B도 동급에서 강력.

72B = 프런티어급 — 여러 벤치마크에서 GPT-4o·Claude 3.5 Sonnet과 대등/우위. 문서 이해에서 특히 강하나 MMMU는 GPT-4o에 다소 뒤짐.
실세계 공간·OCR — RealWorldQA 77.8, MMVet 74.0, MME 2482.7 등 다수 SOTA, 다국어 OCR 강세.
스케일 — 2B(온디바이스급)·7B·72B 한 레시피.

한 줄 정리 & 의의

Qwen-VL의 “any resolution” 업그레이드. ① Naive Dynamic Resolution(원해상도 → 가변 토큰, ViT 2D-RoPE) + ② M-RoPE(시간·높이·너비로 이미지·비디오 위치 통합) + ③ 통합 이미지·비디오 학습.
차별점. Qwen-VL이 고정 448 + Resampler(256 query) 였다면, Qwen2-VL은 가변 해상도 + MLP merger + M-RoPE로 비디오까지. LLaVA-OneVision이 AnyRes로 모든 시각 신호를 이미지 시퀀스로 통일했다면, Qwen2-VL은 진짜 가변 토큰 + 3축 위치 인코딩으로 공간·시간을 한 좌표계에 담는다.
위치(세대). G4(Native Multimodal)의 “네이티브 동적 해상도” 노선 — 표의 후속 Qwen2.5-VL(절대 시간·window attention)로 이어진다. → VLM 개요