[Qwen2.5-VL] Technical Report
Qwen Team · Alibaba Group
한 줄 요약. Qwen2-VL을 정련한 플래그십. 네 가지 — ① 비전 인코더에 window attention(대부분 층, 4개 층만 full) → 네이티브 해상도를 유지하면서 비용을 선형으로. ② dynamic FPS 샘플링: 동적 해상도를 시간축까지 확장(다양한 프레임레이트). ③ MRoPE를 절대 시간에 정렬: Qwen2-VL은 시간 ID가 프레임 수에 묶여 속도/절대 시각을 못 담았는데, 절대 시간에 맞춰 초 단위 이벤트 위치까지. ④ 사전학습 데이터 1.2T→4T 토큰. 그 결과 omni-document 파싱·정밀 grounding·수 시간 비디오·컴퓨터/모바일 에이전트. 72B는 GPT-4o·Claude 3.5 Sonnet급(문서·다이어그램 특히 강함), 3B/7B도 동급 우위.
배경
LVLM은 “샌드위치 쿠키의 가운데 층” 같다 — 두루 잘하지만 세밀한(fine-grained) 시각 과제에서 탁월하진 못했다. Qwen2.5-VL은 그 세밀 인식을 토대로 깔고, 그 위에 에이전트·멀티모달 추론을 얹는 걸 목표로 한다.
- 직전 Qwen2-VL이 네이티브 동적 해상도 + MRoPE를 도입했지만,
- 네이티브 해상도는 입력 크기에 따라 연산이 제곱으로 불균형하게 커지고,
- MRoPE의 시간 ID가 프레임 수에 묶여 있어 영상의 속도·절대 시각을 제대로 못 담았다.
그럼 인코더 비용을 선형으로 누르고(window attention), 시간 표현을 절대 시간에 맞추면 — 고해상도·장시간 영상·에이전트까지 한 모델로 갈 수 있지 않을까?
핵심 — Qwen2-VL에서 무엇을 바꿨나
네이티브 해상도는 토큰 수가 많아 full attention이면 제곱 비용. 대부분 층을 window attention(최대 112×112=8×8 패치)으로, 단 4개 층만 full → 비용이 패치 수에 선형. ViT는 from scratch로 재설계(2D-RoPE·RMSNorm·SwiGLU, LLM과 설계 통일).
Qwen2-VL의 동적 해상도를 시간 차원으로 확장. 다양한 프레임레이트로 샘플링해, 짧은 클립부터 수 시간 영상까지 일관되게 이해.
Qwen2-VL은 시간 ID가 프레임 수에 묶여 속도·절대 시각을 못 담았다. Qwen2.5-VL은 시간 ID를 절대 시간(타임스탬프)에 정렬 → ID 간격으로 시간의 흐름을 학습, FPS가 달라도 일관 + 초 단위 grounding. (텍스트 timestamp나 별도 head 불필요)
사전학습 토큰을 약 3.4배로. OCR·문서 파싱·localization·비디오·에이전트 상호작용 등 다양·고품질 데이터.
새로 강해진 능력
| 능력 | 무엇이 새로운가 |
|---|---|
| Omni-document 파싱 | 텍스트 인식을 넘어 손글씨·표·차트·화학식·악보까지, 다국어·다장면 문서 |
| 정밀 grounding | bbox + point로 검출·지목·카운팅, 절대 좌표·JSON 형식(상대 좌표 X) |
| 초장시간 비디오 | 동적 해상도를 시간축으로 → 수 시간 영상 이해 + 초 단위 이벤트 구간 추출 |
| 에이전트 | 휴대폰·컴퓨터 화면을 인식·추론·조작(함수 호출 액션 공간, 멀티스텝) |
결과
- 72B = 프런티어급 — GPT-4o·Claude 3.5 Sonnet과 대등, 문서·다이어그램 이해에서 특히 우위. task별 파인튜닝 없이 도메인 일반화.
- 소형도 강함 — 3B(엣지)·7B가 동급 경쟁 모델 능가, Qwen2.5 LLM의 언어 능력도 유지.
한 줄 정리 & 의의
- Qwen2-VL의 정련판. ① window-attention ViT(선형 비용) ② dynamic FPS ③ MRoPE 절대 시간 정렬 ④ 4T 토큰 → 문서·grounding·장시간 비디오·에이전트.
- 차별점. Qwen2-VL이 네이티브 동적 해상도 + MRoPE를 처음 세웠다면, Qwen2.5-VL은 그 위에서 효율(window attn) 과 시간 표현(절대 시간) 을 정조준해 영상·에이전트로 확장. InternVL 2.5(큰 dense ViT 스케일)·DeepSeek-VL2(MoE 효율)와 같은 G4 시기의 다른 노선.
- 위치(세대). G4(Native Multimodal)의 최신 — 네이티브 해상도·시간축·에이전트까지. → VLM 개요