[Qwen2-VL] Enhancing Vision-Language Model's Perception of the World at Any Resolution

VLM G4 arXiv 2024

Peng Wang, Shuai Bai, Sinan Tan, … Junyang Lin · Qwen Team, Alibaba Group

arXiv GitHub

한 줄 요약. Qwen-VL의 업그레이드. 두 가지가 핵심 — ① Naive Dynamic Resolution: 이미지를 고정 크기로 줄이지 않고 원해상도 그대로 받아 해상도에 비례한 가변 개수의 시각 토큰으로 변환(ViT에 2D-RoPE, 절대 위치 임베딩 제거). ② M-RoPE(Multimodal Rotary Position Embedding): 위치 인코딩을 시간·높이·너비 3축으로 분해해 텍스트·이미지·비디오를 한 좌표계로 통합. 이미지·비디오를 한 패러다임으로 학습(비디오 2fps·3D conv). ViT는 675M로 고정한 채 LLM만 2B/7B/72B로 스케일 → 72B는 GPT-4o·Claude 3.5 Sonnet급.

배경

대부분의 LVLM은 visual encoder → connector → LLM 구성에, CLIP류의 고정·frozen 인코더로 이미지를 미리 정해진 작은 해상도(예: 448²) 로 줄여서 본다. 두 가지 한계가 있다.

  • 고정 해상도 — 작은 글자·세밀한 디테일·극단적 종횡비를 놓친다(사람은 해상도를 유동적으로 본다).
  • 비디오를 별개 모달리티로 — 1D 위치 임베딩으론 3차원 공간 + 시간을 제대로 못 담는다.

그럼 이미지를 원해상도 그대로 받고, 이미지와 비디오의 위치(공간·시간)를 하나의 좌표계로 다루면 어떨까?

Figure 1. Qwen2-VL의 능력 — 다국어 이미지·텍스트 이해, 코드/수학 추론, 비디오 분석, 실시간 대화, 에이전트 등.

핵심 아이디어

① Naive Dynamic Resolution

어떤 해상도든 받아 해상도에 비례한 가변 토큰 수로. ViT의 절대 위치 임베딩을 빼고 2D-RoPE 도입 → 공간 스케일에 적응. MLP가 인접 2×2 토큰을 1개로 압축(224²→66 토큰).

② M-RoPE

회전 위치 임베딩을 시간·높이·너비로 분해. 텍스트=세 축 동일(≡1D-RoPE), 이미지=시간 고정+h/w, 비디오=프레임마다 시간 증가. 3D 위치를 명시적으로 모델링하고 position ID가 작아져 긴 시퀀스 외삽에 유리.

③ 통합 이미지·비디오

이미지·비디오를 한 패러다임으로 섞어 학습. 비디오 2fps 샘플링 + depth-2 3D conv(2D 패치 대신 3D 튜브)로 프레임을 늘려도 시퀀스가 안 길어짐(이미지=동일 프레임 2장).

M-RoPE — 텍스트·이미지·비디오를 한 좌표계로

기존 LLM의 1D-RoPE는 위치를 한 줄(1차원) 로만 센다. M-RoPE는 이를 3축(시간 t · 높이 h · 너비 w) 으로 쪼갠다.

입력 temporal (t) height (h) width (w)
텍스트 증가 t와 동일 t와 동일 (→ 1D-RoPE와 동치)
이미지 고정 토큰의 행 위치 토큰의 열 위치
비디오 프레임마다 증가 행 위치 열 위치

여러 모달리티가 섞이면 앞 모달리티의 최대 position ID + 1 에서 다음이 시작한다. 덕분에 이미지·비디오의 position ID 값이 작아져 추론 시 더 긴 시퀀스로 외삽할 수 있다.

Figure 3. M-RoPE 시연. 회전 위치 임베딩을 시간·높이·너비로 분해해 텍스트·이미지·비디오의 위치를 LLM 안에서 명시적으로 모델링한다.

아키텍처 한눈에

  • 인코더675M ViT(2D-RoPE), LLM 크기와 무관하게 고정 → ViT 연산량 일정.
  • 커넥터 — ViT 뒤 MLP가 2×2 토큰을 1개로 합치는 merger(<|vision_start|>·<|vision_end|>로 감쌈). Qwen-VL의 cross-attn Resampler를 대체.
  • LLM — Qwen2, 2B / 7B / 72B. (데이터·모델 크기 양쪽으로 scaling law 탐구)

결과

Table 2. Qwen2-VL vs SOTA. 72B는 다양한 멀티모달 벤치마크에서 GPT-4o·Claude 3.5 Sonnet과 대등하거나 능가(특히 문서 이해). 2B·7B도 동급에서 강력.
  • 72B = 프런티어급 — 여러 벤치마크에서 GPT-4o·Claude 3.5 Sonnet과 대등/우위. 문서 이해에서 특히 강하나 MMMU는 GPT-4o에 다소 뒤짐.
  • 실세계 공간·OCR — RealWorldQA 77.8, MMVet 74.0, MME 2482.7 등 다수 SOTA, 다국어 OCR 강세.
  • 스케일 — 2B(온디바이스급)·7B·72B 한 레시피.

한 줄 정리 & 의의

  • Qwen-VL의 “any resolution” 업그레이드.Naive Dynamic Resolution(원해상도 → 가변 토큰, ViT 2D-RoPE) + ② M-RoPE(시간·높이·너비로 이미지·비디오 위치 통합) + ③ 통합 이미지·비디오 학습.
  • 차별점. Qwen-VL고정 448 + Resampler(256 query) 였다면, Qwen2-VL은 가변 해상도 + MLP merger + M-RoPE로 비디오까지. LLaVA-OneVision이 AnyRes로 모든 시각 신호를 이미지 시퀀스로 통일했다면, Qwen2-VL은 진짜 가변 토큰 + 3축 위치 인코딩으로 공간·시간을 한 좌표계에 담는다.
  • 위치(세대). G4(Native Multimodal)의 “네이티브 동적 해상도” 노선 — 표의 후속 Qwen2.5-VL(절대 시간·window attention)로 이어진다. → VLM 개요