[LLaVA-OneVision] Easy Visual Task Transfer
Bo Li, Yuanhan Zhang, Dong Guo, … Chunyuan Li · ByteDance / S-Lab NTU 외
한 줄 요약. LLaVA 계보(LLaVA→1.5→NeXT→OneVision)를 모은 오픈 LMM. 한 모델이 single-image·multi-image·video 세 시나리오를 모두 잘하는 첫 오픈 모델이다. 핵심은 시나리오 간 task transfer — 비디오를 따로 많이 안 배워도, 이미지로 학습한 능력이 비디오로 전이(창발) 된다. 비결은 AnyRes로 모든 시각 신호를 "이미지 시퀀스"로 통일하고 시나리오별 토큰 예산을 비슷하게 맞춘 표현 설계. 아키텍처는 SigLIP + 2-layer MLP + Qwen-2(0.5B~72B), curriculum 3단계 학습. 세 시나리오 모두 SOTA.
배경
오픈 커뮤니티는 보통 시나리오마다 따로 모델을 만든다 — 대부분 single-image에 집중하고, multi-image는 일부, video 모델은 비디오엔 강해도 이미지 성능을 희생한다.
- 한 모델이 셋 다 잘하는 오픈 모델은 드물었다(상용 GPT-4o·Gemini는 다 잘하지만 비공개).
그러면 single-image·multi-image·video를 한 모델로 다루고, 한 시나리오에서 배운 걸 다른 시나리오로 전이시킬 수 없을까?
핵심 아이디어
single-image · multi-image · video를 하나의 모델로. 모든 시각 신호를 이미지 시퀀스로 통일.
이미지로 배운 능력이 비디오로 전이(창발). 비디오 데이터에 덜 의존하고도 강한 비디오 이해.
시나리오별 최대 시각 토큰 수를 비슷하게 맞춰 표현을 균형화 → 전이가 잘 일어난다.
비디오는 어떻게 확장했나 — 모든 걸 “이미지 시퀀스”로
핵심은 비디오 전용 아키텍처가 없다는 것. AnyRes로 모든 시각 신호를 “이미지(들)의 시퀀스”로 통일한다.
| 시나리오 | AnyRes 표현 |
|---|---|
| 고해상도 단일 이미지 | grid로 쪼갠 crop 여러 장의 시퀀스 |
| 멀티이미지 | 이미지 여러 장의 시퀀스 |
| 비디오 | 프레임 여러 장의 시퀀스 |
즉 비디오 = “프레임이라는 이미지들의 시퀀스” → 이미지용 파이프라인을 그대로 재사용한다(특수 비디오 모듈 없음).
그래서 ② 전이가 일어난다 — AnyRes로 보면 고해상도 단일 이미지(crop 여러 장) ≈ 비디오(프레임 여러 장) 로 구조가 비슷하고, 시나리오별 토큰 예산을 비슷하게 맞춰(예: SigLIP 384²=729 토큰 기준) 표현을 균형화했기 때문에, 이미지(시퀀스)에서 배운 능력이 비디오(시퀀스)로 자연스럽게 전이된다. (논문: “AnyRes가 어떤 시각 신호든 이미지 시퀀스로 소화하기에, 이미지로만 학습한 모델이 비디오에 surprisingly 강하다”)
한 줄. AnyRes가 비디오를 “프레임 = 이미지들의 시퀀스” 로 바꿔 이미지 파이프라인에 그대로 태운다 → 비디오 전용 학습 없이도 이미지 학습이 비디오로 전이된다.
방법 — Curriculum 3단계
쉬운 것 → 어려운 것 순으로 단계적으로 학습한다.
| 단계 | 무엇을 | 학습 모듈 |
|---|---|---|
| Stage-1 Language-Image Alignment | 시각 특징을 LLM 단어 공간에 정렬 | projector만 |
| Stage-1.5 High-Quality Knowledge | 고품질 지식 주입 | full model |
| Stage-2 Visual Instruction Tuning | 다양한 시각 task를 지시로 풀게 | full model |
- 단계가 진행될수록 해상도·토큰 수를 점진 증가(Stage-1 기본 729 → 1.5/2에서 AnyRes로 5×·10×). 비전 인코더 lr은 LLM의 1/5.
- 데이터: 직접 큐레이션한 OneVision 1.6M(single/multi-image/video).
결과
- 세 시나리오 SOTA — single-image·multi-image·video 전반에서 오픈 SOTA, 상용(GPT-4V 등)과도 경쟁.
- 전이로 얻는 창발 — 이미지 중심 학습만으로도 강한 비디오 이해가 나타난다(cross-scenario transfer).
- 스케일 — 0.5B / 7B / 72B 패밀리.
한 줄 정리 & 의의
- “한 모델로 이미지·멀티이미지·비디오” 를 처음 제대로 해낸 오픈 LMM. 비결은 모든 시각 신호를 이미지 시퀀스로 통일 + 시나리오별 토큰 예산 균형 → 시나리오 간 task transfer(이미지→비디오 창발).
- 차별점. LLaVA-1.5 등 기존 오픈 모델이 한 시나리오(주로 이미지) 에 특화됐다면, OneVision은 셋 다 + 전이. connector·인코더는 여전히 단순(SigLIP+MLP)하되 입력 표현(AnyRes)·데이터·curriculum으로 확장.
- 위치(세대). G4(Native/스케일) — 입력을 비디오·멀티이미지·고해상도로 넓힌 노선. 네이티브 동적 해상도·에이전트까지 가는 VLM 개요의 Qwen2.5-VL과 같은 흐름의 선배 격.