[Qwen2-VL] Enhancing Vision-Language Model's Perception of the World at Any Resolution
Peng Wang, Shuai Bai, Sinan Tan, … Junyang Lin · Qwen Team, Alibaba Group
한 줄 요약. Qwen-VL의 업그레이드. 두 가지가 핵심 — ① Naive Dynamic Resolution: 이미지를 고정 크기로 줄이지 않고 원해상도 그대로 받아 해상도에 비례한 가변 개수의 시각 토큰으로 변환(ViT에 2D-RoPE, 절대 위치 임베딩 제거). ② M-RoPE(Multimodal Rotary Position Embedding): 위치 인코딩을 시간·높이·너비 3축으로 분해해 텍스트·이미지·비디오를 한 좌표계로 통합. 이미지·비디오를 한 패러다임으로 학습(비디오 2fps·3D conv). ViT는 675M로 고정한 채 LLM만 2B/7B/72B로 스케일 → 72B는 GPT-4o·Claude 3.5 Sonnet급.
배경
대부분의 LVLM은 visual encoder → connector → LLM 구성에, CLIP류의 고정·frozen 인코더로 이미지를 미리 정해진 작은 해상도(예: 448²) 로 줄여서 본다. 두 가지 한계가 있다.
- 고정 해상도 — 작은 글자·세밀한 디테일·극단적 종횡비를 놓친다(사람은 해상도를 유동적으로 본다).
- 비디오를 별개 모달리티로 — 1D 위치 임베딩으론 3차원 공간 + 시간을 제대로 못 담는다.
그럼 이미지를 원해상도 그대로 받고, 이미지와 비디오의 위치(공간·시간)를 하나의 좌표계로 다루면 어떨까?
핵심 아이디어
어떤 해상도든 받아 해상도에 비례한 가변 토큰 수로. ViT의 절대 위치 임베딩을 빼고 2D-RoPE 도입 → 공간 스케일에 적응. MLP가 인접 2×2 토큰을 1개로 압축(224²→66 토큰).
회전 위치 임베딩을 시간·높이·너비로 분해. 텍스트=세 축 동일(≡1D-RoPE), 이미지=시간 고정+h/w, 비디오=프레임마다 시간 증가. 3D 위치를 명시적으로 모델링하고 position ID가 작아져 긴 시퀀스 외삽에 유리.
이미지·비디오를 한 패러다임으로 섞어 학습. 비디오 2fps 샘플링 + depth-2 3D conv(2D 패치 대신 3D 튜브)로 프레임을 늘려도 시퀀스가 안 길어짐(이미지=동일 프레임 2장).
M-RoPE — 텍스트·이미지·비디오를 한 좌표계로
기존 LLM의 1D-RoPE는 위치를 한 줄(1차원) 로만 센다. M-RoPE는 이를 3축(시간 t · 높이 h · 너비 w) 으로 쪼갠다.
| 입력 | temporal (t) | height (h) | width (w) |
|---|---|---|---|
| 텍스트 | 증가 | t와 동일 | t와 동일 (→ 1D-RoPE와 동치) |
| 이미지 | 고정 | 토큰의 행 위치 | 토큰의 열 위치 |
| 비디오 | 프레임마다 증가 | 행 위치 | 열 위치 |
여러 모달리티가 섞이면 앞 모달리티의 최대 position ID + 1 에서 다음이 시작한다. 덕분에 이미지·비디오의 position ID 값이 작아져 추론 시 더 긴 시퀀스로 외삽할 수 있다.
아키텍처 한눈에
- 인코더 — 675M ViT(2D-RoPE), LLM 크기와 무관하게 고정 → ViT 연산량 일정.
- 커넥터 — ViT 뒤 MLP가 2×2 토큰을 1개로 합치는 merger(
<|vision_start|>·<|vision_end|>로 감쌈). Qwen-VL의 cross-attn Resampler를 대체. - LLM — Qwen2, 2B / 7B / 72B. (데이터·모델 크기 양쪽으로 scaling law 탐구)
결과
- 72B = 프런티어급 — 여러 벤치마크에서 GPT-4o·Claude 3.5 Sonnet과 대등/우위. 문서 이해에서 특히 강하나 MMMU는 GPT-4o에 다소 뒤짐.
- 실세계 공간·OCR — RealWorldQA 77.8, MMVet 74.0, MME 2482.7 등 다수 SOTA, 다국어 OCR 강세.
- 스케일 — 2B(온디바이스급)·7B·72B 한 레시피.
한 줄 정리 & 의의
- Qwen-VL의 “any resolution” 업그레이드. ① Naive Dynamic Resolution(원해상도 → 가변 토큰, ViT 2D-RoPE) + ② M-RoPE(시간·높이·너비로 이미지·비디오 위치 통합) + ③ 통합 이미지·비디오 학습.
- 차별점. Qwen-VL이 고정 448 + Resampler(256 query) 였다면, Qwen2-VL은 가변 해상도 + MLP merger + M-RoPE로 비디오까지. LLaVA-OneVision이 AnyRes로 모든 시각 신호를 이미지 시퀀스로 통일했다면, Qwen2-VL은 진짜 가변 토큰 + 3축 위치 인코딩으로 공간·시간을 한 좌표계에 담는다.
- 위치(세대). G4(Native Multimodal)의 “네이티브 동적 해상도” 노선 — 표의 후속 Qwen2.5-VL(절대 시간·window attention)로 이어진다. → VLM 개요