[Qwen2.5-VL] Technical Report

VLM G4 arXiv 2025

Qwen Team · Alibaba Group

arXiv GitHub

한 줄 요약. Qwen2-VL정련한 플래그십. 네 가지 — ① 비전 인코더에 window attention(대부분 층, 4개 층만 full) → 네이티브 해상도를 유지하면서 비용을 선형으로. ② dynamic FPS 샘플링: 동적 해상도를 시간축까지 확장(다양한 프레임레이트). ③ MRoPE를 절대 시간에 정렬: Qwen2-VL은 시간 ID가 프레임 수에 묶여 속도/절대 시각을 못 담았는데, 절대 시간에 맞춰 초 단위 이벤트 위치까지. ④ 사전학습 데이터 1.2T→4T 토큰. 그 결과 omni-document 파싱·정밀 grounding·수 시간 비디오·컴퓨터/모바일 에이전트. 72B는 GPT-4o·Claude 3.5 Sonnet급(문서·다이어그램 특히 강함), 3B/7B도 동급 우위.

배경

LVLM은 “샌드위치 쿠키의 가운데 층” 같다 — 두루 잘하지만 세밀한(fine-grained) 시각 과제에서 탁월하진 못했다. Qwen2.5-VL은 그 세밀 인식을 토대로 깔고, 그 위에 에이전트·멀티모달 추론을 얹는 걸 목표로 한다.

  • 직전 Qwen2-VL네이티브 동적 해상도 + MRoPE를 도입했지만,
    • 네이티브 해상도는 입력 크기에 따라 연산이 제곱으로 불균형하게 커지고,
    • MRoPE의 시간 ID가 프레임 수에 묶여 있어 영상의 속도·절대 시각을 제대로 못 담았다.

그럼 인코더 비용을 선형으로 누르고(window attention), 시간 표현을 절대 시간에 맞추면 — 고해상도·장시간 영상·에이전트까지 한 모델로 갈 수 있지 않을까?

Figure 1. Qwen2.5-VL 프레임워크. 비전 인코더는 네이티브 해상도 입력 + dynamic FPS 샘플링을 지원하고, 크기·FPS가 다른 입력을 길이가 다른 토큰열로 동적 매핑한다. MRoPE의 시간 ID를 절대 시간에 정렬해 사건의 속도·정확한 순간을 이해한다. ViT는 SwiGLU·RMSNorm·window attention으로 재설계.

핵심 — Qwen2-VL에서 무엇을 바꿨나

① Window Attention ViT (효율)

네이티브 해상도는 토큰 수가 많아 full attention이면 제곱 비용. 대부분 층을 window attention(최대 112×112=8×8 패치)으로, 단 4개 층만 full → 비용이 패치 수에 선형. ViT는 from scratch로 재설계(2D-RoPE·RMSNorm·SwiGLU, LLM과 설계 통일).

② Dynamic FPS 샘플링 (시간축 확장)

Qwen2-VL의 동적 해상도시간 차원으로 확장. 다양한 프레임레이트로 샘플링해, 짧은 클립부터 수 시간 영상까지 일관되게 이해.

③ MRoPE × 절대 시간

Qwen2-VL은 시간 ID가 프레임 수에 묶여 속도·절대 시각을 못 담았다. Qwen2.5-VL은 시간 ID를 절대 시간(타임스탬프)에 정렬 → ID 간격으로 시간의 흐름을 학습, FPS가 달라도 일관 + 초 단위 grounding. (텍스트 timestamp나 별도 head 불필요)

④ 데이터 스케일 1.2T→4T

사전학습 토큰을 약 3.4배로. OCR·문서 파싱·localization·비디오·에이전트 상호작용 등 다양·고품질 데이터.

새로 강해진 능력

능력 무엇이 새로운가
Omni-document 파싱 텍스트 인식을 넘어 손글씨·표·차트·화학식·악보까지, 다국어·다장면 문서
정밀 grounding bbox + point로 검출·지목·카운팅, 절대 좌표·JSON 형식(상대 좌표 X)
초장시간 비디오 동적 해상도를 시간축으로 → 수 시간 영상 이해 + 초 단위 이벤트 구간 추출
에이전트 휴대폰·컴퓨터 화면을 인식·추론·조작(함수 호출 액션 공간, 멀티스텝)

결과

Table 3. Qwen2.5-VL vs SOTA. 72B가 GPT-4o·Claude 3.5 Sonnet과 대등/우위(특히 문서·다이어그램). 3B·7B도 동급 경쟁 모델을 능가.
Table 8. 비디오 벤치마크. dynamic FPS + 절대 시간 MRoPE 덕에 장시간·시간 grounding에서 강세.
  • 72B = 프런티어급 — GPT-4o·Claude 3.5 Sonnet과 대등, 문서·다이어그램 이해에서 특히 우위. task별 파인튜닝 없이 도메인 일반화.
  • 소형도 강함 — 3B(엣지)·7B가 동급 경쟁 모델 능가, Qwen2.5 LLM의 언어 능력도 유지.

한 줄 정리 & 의의

  • Qwen2-VL의 정련판. ① window-attention ViT(선형 비용) ② dynamic FPS ③ MRoPE 절대 시간 정렬 ④ 4T 토큰 → 문서·grounding·장시간 비디오·에이전트.
  • 차별점. Qwen2-VL네이티브 동적 해상도 + MRoPE를 처음 세웠다면, Qwen2.5-VL은 그 위에서 효율(window attn)시간 표현(절대 시간) 을 정조준해 영상·에이전트로 확장. InternVL 2.5(큰 dense ViT 스케일)·DeepSeek-VL2(MoE 효율)와 같은 G4 시기의 다른 노선.
  • 위치(세대). G4(Native Multimodal)의 최신 — 네이티브 해상도·시간축·에이전트까지. → VLM 개요