[Qwen3-VL] Technical Report
Qwen Team · Alibaba Group
한 줄 요약. Qwen 비전-언어 시리즈의 최신 플래그십. Qwen2.5-VL과 같은 3-모듈 구조(인코더+MLP merger+LLM, Qwen3 기반)에 네이티브 256K interleaved 컨텍스트(텍스트·이미지·비디오)와 dense(2/4/8/32B) + MoE(30B-A3B/235B-A22B) 라인업. 아키텍처 3대 업그레이드 — ① interleaved-MRoPE(이미지·영상의 공간·시간 모델링 강화) ② DeepStack(ViT의 여러 층 특징을 LLM 대응 층에 주입 → 정렬 강화) ③ 텍스트 기반 시간 정렬(T-RoPE→명시적 텍스트 타임스탬프, 정밀 temporal grounding). text/멀티모달 균형용 square-root reweighting, thinking·non-thinking 두 변형. 순수 텍스트·롱컨텍스트·멀티모달 추론(MMMU·MathVista·MathVision) 모두 선두권.
배경
VLM은 시각 인식 → 멀티모달 추론으로 진화하며 롱컨텍스트·STEM·GUI·에이전트로 응용이 넓어졌다. 다만 멀티모달을 키우면서도 바탕 LLM의 언어 능력을 깎으면 안 된다(텍스트 벤치마크에서 동급 텍스트 모델을 따라잡거나 능가해야).
- 직전 Qwen2.5-VL이 네이티브 해상도·시간축·에이전트를 세웠다면,
- Qwen3-VL은 그 위에서 롱컨텍스트(256K)·시각-언어 정렬·시간 표현·언어 보존을 한 단계 더 민다.
핵심 — 세 가지 아키텍처 업그레이드
Qwen2.5-VL의 MRoPE(시간·높이·너비)를 개선 — 균형 잡힌 주파수 스펙트럼으로 이미지·비디오의 공간·시간을 더 견고하게 인코딩.
ViT 세 층의 특징을 각각 merger로 투영해 LLM 앞쪽 세 층의 hidden state에 더한다. 마지막 층 특징만 쓰던 방식 대비 다층(multi-level) 시각 정보를 살려 정렬·지각을 강화.
비디오 시간 인코딩을 T-RoPE → 명시적 텍스트 타임스탬프 토큰으로 진화. 프레임 시퀀스의 시간 구조를 더 정확히 포착해 temporal grounding↑.
그 외 핵심
| 항목 | 내용 |
|---|---|
| 네이티브 256K 컨텍스트 | 텍스트·이미지·비디오 interleaved 입력을 256K 토큰까지 — 긴 문서·영상의 보존·검색·교차참조 |
| 라인업 | dense 2B/4B/8B/32B + MoE 30B-A3B / 235B-A22B (지연-품질 트레이드오프) |
| square-root reweighting | text-only vs 멀티모달 학습 목표 균형 → 언어 능력 손상 없이 멀티모달 향상 |
| thinking / non-thinking | 후처리를 두 변형으로 분기 — thinking은 복잡 추론에서 더 강함 |
| 다국어 OCR | 지원 언어를 10개(2.5-VL) → 39개로 확장(32개 언어에서 70%+ 정확도) |
결과
- 세 영역 모두 선두 — ① 순수 텍스트(동급 텍스트 백본 능가 사례) ② 롱컨텍스트(256K 보존·검색) ③ 멀티모달 추론(MMMU·MathVista·MathVision).
- dense·MoE 모두 우위 — 비슷한 토큰 예산·지연 제약에서 더 높은 성능.
한 줄 정리 & 의의
- Qwen 시리즈 최신·최강 VLM. 네이티브 256K interleaved + dense/MoE 라인업, 3대 업그레이드(interleaved-MRoPE · DeepStack · 텍스트 타임스탬프), 언어 보존(square-root reweighting), thinking 변형.
- 차별점. Qwen2.5-VL이 window attn·절대 시간·에이전트를 세웠다면, Qwen3-VL은 DeepStack(다층 ViT 융합)·256K 롱컨텍스트·텍스트 타임스탬프로 정렬·시간·길이를 끌어올렸다. 같은 G4 최신의 InternVL3가 학습 패러다임(native pre-training) 노선이라면, Qwen3-VL은 아키텍처·컨텍스트 노선.
- 위치(세대). G4(Native Multimodal)의 최신 — 이미지 기반 추론·에이전트·멀티모달 코드까지 노리는 파운데이션. → VLM 개요