[Qwen-VL] A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

VLM G3 arXiv 2023

Jinze Bai, Shuai Bai, Shusheng Yang, … Jingren Zhou · Alibaba Group

arXiv GitHub

한 줄 요약. Qwen-7B에 시각을 붙인 LVLM. ViT + position-aware 어댑터(single-layer cross-attention, learnable query 256개로 이미지 특징을 256토큰으로 압축)로 잇고, 3단계 학습(pretrain → multi-task pretrain → SFT)으로 최적화한다. <box>·<ref> 특수 토큰으로 bounding box 입출력을 지원해 grounding·text-reading(OCR) 같은 fine-grained 능력을 더한 게 특징. instruction-tuned Qwen-VL-Chat은 멀티이미지·다국어·grounding 대화까지. 비슷한 규모 generalist 중 captioning·VQA·grounding에서 SOTA(Flickr30k zero-shot CIDEr 85.8로 Flamingo-80B도 능가).

배경

오픈소스 LVLM은 학습·최적화가 부족해 상용 모델에 뒤졌고, 대부분 이미지를 coarse하게 봐서 object grounding·text reading 같은 fine-grained 인지가 약했다.

Qwen-7B를 기반으로, 시각 수용기(visual receptor) + 입출력 인터페이스 + 3단계 학습을 정교하게 설계해, 묘사·QA를 넘어 위치 지정·문자 읽기까지 잘하는 범용 VLM을 만들 수 없을까?

Figure 2. Qwen-VL-Chat 예시 — 멀티이미지 입력·다중 턴·다국어 대화, text-reading, localization, fine-grained 인식까지 지원.

핵심 아이디어 — 아키텍처

① Visual Encoder

ViT(OpenCLIP ViT-bigG). 이미지를 patch(stride 14)로 특징화. 해상도 224→448.

② Position-aware Adapter

single-layer cross-attention + learnable query 256 → 이미지 특징을 256토큰으로 압축. 2D 위치 인코딩을 더해 grounding용 위치 정보 보존.

③ LLM

Qwen-7B로 초기화. 256 시각 토큰 + 텍스트를 받아 자기회귀 생성.

connector가 LLaVA의 단순 projection이 아니라 Resampler 계열(cross-attention + 압축) 인 게 차이. BLIP-2의 Q-Former와 사상이 가깝다.

입출력 인터페이스 — grounding·text-reading

  • 이미지<img>/</img> 로 시각 토큰 구간 표시.
  • Bounding box — 좌표를 [0,1000)로 정규화한 문자열 (x1,y1),(x2,y2) 로 만들어 <box>/</box> 로 감싸고, 가리키는 대상은 <ref>/</ref> 로 연결. 별도 좌표 vocabulary 없이 텍스트로 처리 → grounding/지시 표현을 자연스럽게 학습.

방법 — 3단계 학습

Figure 3. Qwen-VL의 3단계 학습 — ① pretrain(LLM freeze, ViT+adapter), ② multi-task pretrain(전체 unlock, 고해상도·7개 task), ③ SFT(ViT freeze, adapter+LLM 지시튜닝) → Qwen-VL-Chat.
단계 무엇을 학습 데이터·설정
① Pre-training LLM freeze, ViT+adapter만 224px, 웹 이미지-텍스트 약 1.5B(weak label), cross-entropy
② Multi-task Pre-training 전체 unlock(LLM까지) 448px, 7개 task 동시(캡셔닝·VQA·grounding·ref grounding·grounded caption·OCR·pure-text), interleaved
③ Supervised Fine-tuning ViT freeze, adapter+LLM 멀티모달 instruction 350k(멀티이미지·grounding 포함) → Qwen-VL-Chat

결과

Table 4. image caption · 일반 VQA. Qwen-VL/Qwen-VL-Chat이 비슷한 규모 generalist를 능가 — zero-shot Flickr30k CIDEr 85.8로 SOTA(80B Flamingo도 상회).
  • captioning·VQA — 비슷한 규모 generalist 중 최고. zero-shot Flickr30k CIDEr 85.8 SOTA로 Flamingo-80B(80B) 까지 능가(7B로).
Table 5–6. text-oriented VQA(TextVQA·DocVQA·ChartQA·AI2D·OCR-VQA) 및 grounding. 고해상도 입력 + fine-grained 데이터 덕에 대부분 큰 격차로 우위.
  • text-oriented / 문서 — TextVQA·DocVQA·ChartQA·OCR-VQA 등에서 큰 격차로 우위(고해상도 448 + OCR 데이터).
  • grounding — RefCOCO 계열 referring expression comprehension에서 강력.
  • 대화 — instruction-tuned Qwen-VL-Chat이 기존 VL 챗봇 대비 실사용 대화 벤치마크에서 우수.

한 줄 정리 & 의의

  • Qwen-7B + (ViT + position-aware cross-attention adapter) + 3단계 학습으로 만든 범용 LVLM. instruction-tuned Qwen-VL-Chat까지 — G3(Visual Instruction Tuning) 세대의 어시스턴트.
  • 차별점. ① connector가 LLaVA의 단순 projection이 아니라 Resampler(cross-attn) 압축, ② <box>·<ref> 토큰으로 grounding·text-reading을 1급 시민으로, ③ 고해상도(448)+멀티태스크 3단계 학습.
  • 계보. 이후 Qwen2.5-VL(G4, 네이티브 동적 해상도·비디오·에이전트)로 진화한다. → VLM 개요