[Qwen3-VL] Technical Report

VLM G4 arXiv 2025

Qwen Team · Alibaba Group

arXiv GitHub

한 줄 요약. Qwen 비전-언어 시리즈의 최신 플래그십. Qwen2.5-VL과 같은 3-모듈 구조(인코더+MLP merger+LLM, Qwen3 기반)에 네이티브 256K interleaved 컨텍스트(텍스트·이미지·비디오)와 dense(2/4/8/32B) + MoE(30B-A3B/235B-A22B) 라인업. 아키텍처 3대 업그레이드 — ① interleaved-MRoPE(이미지·영상의 공간·시간 모델링 강화) ② DeepStack(ViT의 여러 층 특징을 LLM 대응 층에 주입 → 정렬 강화) ③ 텍스트 기반 시간 정렬(T-RoPE→명시적 텍스트 타임스탬프, 정밀 temporal grounding). text/멀티모달 균형용 square-root reweighting, thinking·non-thinking 두 변형. 순수 텍스트·롱컨텍스트·멀티모달 추론(MMMU·MathVista·MathVision) 모두 선두권.

배경

VLM은 시각 인식 → 멀티모달 추론으로 진화하며 롱컨텍스트·STEM·GUI·에이전트로 응용이 넓어졌다. 다만 멀티모달을 키우면서도 바탕 LLM의 언어 능력을 깎으면 안 된다(텍스트 벤치마크에서 동급 텍스트 모델을 따라잡거나 능가해야).

  • 직전 Qwen2.5-VL이 네이티브 해상도·시간축·에이전트를 세웠다면,
  • Qwen3-VL은 그 위에서 롱컨텍스트(256K)·시각-언어 정렬·시간 표현·언어 보존을 한 단계 더 민다.
Figure 1. Qwen3-VL 프레임워크. 네이티브 동적 해상도 비전 인코더 → 가변 길이 시각 토큰. DeepStack이 ViT의 여러 층 토큰을 LLM 앞쪽 층들에 주입하고, interleaved MRoPE로 위치를, 텍스트 타임스탬프 토큰으로 영상의 시간 구조를 인코딩한다.

핵심 — 세 가지 아키텍처 업그레이드

① Interleaved-MRoPE

Qwen2.5-VL의 MRoPE(시간·높이·너비)를 개선 — 균형 잡힌 주파수 스펙트럼으로 이미지·비디오의 공간·시간을 더 견고하게 인코딩.

② DeepStack

ViT 세 층의 특징을 각각 merger로 투영해 LLM 앞쪽 세 층의 hidden state에 더한다. 마지막 층 특징만 쓰던 방식 대비 다층(multi-level) 시각 정보를 살려 정렬·지각을 강화.

③ 텍스트 기반 시간 정렬

비디오 시간 인코딩을 T-RoPE → 명시적 텍스트 타임스탬프 토큰으로 진화. 프레임 시퀀스의 시간 구조를 더 정확히 포착해 temporal grounding↑.

그 외 핵심

항목 내용
네이티브 256K 컨텍스트 텍스트·이미지·비디오 interleaved 입력을 256K 토큰까지 — 긴 문서·영상의 보존·검색·교차참조
라인업 dense 2B/4B/8B/32B + MoE 30B-A3B / 235B-A22B (지연-품질 트레이드오프)
square-root reweighting text-only vs 멀티모달 학습 목표 균형 → 언어 능력 손상 없이 멀티모달 향상
thinking / non-thinking 후처리를 두 변형으로 분기 — thinking은 복잡 추론에서 더 강함
다국어 OCR 지원 언어를 10개(2.5-VL) → 39개로 확장(32개 언어에서 70%+ 정확도)

결과

Table 5. Qwen3-VL 벤치마크 성능. dense·MoE 양쪽에서 비슷한 토큰 예산·지연 대비 선두권 — 단일/멀티이미지·비디오, MMMU·시각 수학(MathVista·MathVision).
  • 세 영역 모두 선두 — ① 순수 텍스트(동급 텍스트 백본 능가 사례) ② 롱컨텍스트(256K 보존·검색) ③ 멀티모달 추론(MMMU·MathVista·MathVision).
  • dense·MoE 모두 우위 — 비슷한 토큰 예산·지연 제약에서 더 높은 성능.

한 줄 정리 & 의의

  • Qwen 시리즈 최신·최강 VLM. 네이티브 256K interleaved + dense/MoE 라인업, 3대 업그레이드(interleaved-MRoPE · DeepStack · 텍스트 타임스탬프), 언어 보존(square-root reweighting), thinking 변형.
  • 차별점. Qwen2.5-VLwindow attn·절대 시간·에이전트를 세웠다면, Qwen3-VL은 DeepStack(다층 ViT 융합)·256K 롱컨텍스트·텍스트 타임스탬프로 정렬·시간·길이를 끌어올렸다. 같은 G4 최신의 InternVL3학습 패러다임(native pre-training) 노선이라면, Qwen3-VL은 아키텍처·컨텍스트 노선.
  • 위치(세대). G4(Native Multimodal)의 최신 — 이미지 기반 추론·에이전트·멀티모달 코드까지 노리는 파운데이션. → VLM 개요