[Qwen-VL] A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
Jinze Bai, Shuai Bai, Shusheng Yang, … Jingren Zhou · Alibaba Group
한 줄 요약. Qwen-7B에 시각을 붙인 LVLM. ViT + position-aware 어댑터(single-layer cross-attention, learnable query 256개로 이미지 특징을 256토큰으로 압축)로 잇고, 3단계 학습(pretrain → multi-task pretrain → SFT)으로 최적화한다. <box>·<ref> 특수 토큰으로 bounding box 입출력을 지원해 grounding·text-reading(OCR) 같은 fine-grained 능력을 더한 게 특징. instruction-tuned Qwen-VL-Chat은 멀티이미지·다국어·grounding 대화까지. 비슷한 규모 generalist 중 captioning·VQA·grounding에서 SOTA(Flickr30k zero-shot CIDEr 85.8로 Flamingo-80B도 능가).
배경
오픈소스 LVLM은 학습·최적화가 부족해 상용 모델에 뒤졌고, 대부분 이미지를 coarse하게 봐서 object grounding·text reading 같은 fine-grained 인지가 약했다.
Qwen-7B를 기반으로, 시각 수용기(visual receptor) + 입출력 인터페이스 + 3단계 학습을 정교하게 설계해, 묘사·QA를 넘어 위치 지정·문자 읽기까지 잘하는 범용 VLM을 만들 수 없을까?
핵심 아이디어 — 아키텍처
ViT(OpenCLIP ViT-bigG). 이미지를 patch(stride 14)로 특징화. 해상도 224→448.
single-layer cross-attention + learnable query 256 → 이미지 특징을 256토큰으로 압축. 2D 위치 인코딩을 더해 grounding용 위치 정보 보존.
Qwen-7B로 초기화. 256 시각 토큰 + 텍스트를 받아 자기회귀 생성.
connector가 LLaVA의 단순 projection이 아니라 Resampler 계열(cross-attention + 압축) 인 게 차이. BLIP-2의 Q-Former와 사상이 가깝다.
입출력 인터페이스 — grounding·text-reading
- 이미지 —
<img>/</img>로 시각 토큰 구간 표시. - Bounding box — 좌표를 [0,1000)로 정규화한 문자열
(x1,y1),(x2,y2)로 만들어<box>/</box>로 감싸고, 가리키는 대상은<ref>/</ref>로 연결. 별도 좌표 vocabulary 없이 텍스트로 처리 → grounding/지시 표현을 자연스럽게 학습.
방법 — 3단계 학습
| 단계 | 무엇을 학습 | 데이터·설정 |
|---|---|---|
| ① Pre-training | LLM freeze, ViT+adapter만 | 224px, 웹 이미지-텍스트 약 1.5B(weak label), cross-entropy |
| ② Multi-task Pre-training | 전체 unlock(LLM까지) | 448px, 7개 task 동시(캡셔닝·VQA·grounding·ref grounding·grounded caption·OCR·pure-text), interleaved |
| ③ Supervised Fine-tuning | ViT freeze, adapter+LLM | 멀티모달 instruction 350k(멀티이미지·grounding 포함) → Qwen-VL-Chat |
결과
- captioning·VQA — 비슷한 규모 generalist 중 최고. zero-shot Flickr30k CIDEr 85.8 SOTA로 Flamingo-80B(80B) 까지 능가(7B로).
- text-oriented / 문서 — TextVQA·DocVQA·ChartQA·OCR-VQA 등에서 큰 격차로 우위(고해상도 448 + OCR 데이터).
- grounding — RefCOCO 계열 referring expression comprehension에서 강력.
- 대화 — instruction-tuned Qwen-VL-Chat이 기존 VL 챗봇 대비 실사용 대화 벤치마크에서 우수.
한 줄 정리 & 의의
- Qwen-7B + (ViT + position-aware cross-attention adapter) + 3단계 학습으로 만든 범용 LVLM. instruction-tuned Qwen-VL-Chat까지 — G3(Visual Instruction Tuning) 세대의 어시스턴트.
- 차별점. ① connector가 LLaVA의 단순 projection이 아니라 Resampler(cross-attn) 압축, ②
<box>·<ref>토큰으로 grounding·text-reading을 1급 시민으로, ③ 고해상도(448)+멀티태스크 3단계 학습. - 계보. 이후 Qwen2.5-VL(G4, 네이티브 동적 해상도·비디오·에이전트)로 진화한다. → VLM 개요