[LLaVA-1.5] Improved Baselines with Visual Instruction Tuning
Haotian Liu, Chunyuan Li, Yuheng Li, Yong Jae Lee · UW-Madison / Microsoft Research
한 줄 요약. LLaVA의 design choice를 통제된 환경에서 체계적으로 연구해, 단순한 fully-connected connector가 의외로 강력·data-efficient 함을 보인다. 세 가지 간단한 수정 — ① MLP projection(linear→2-layer MLP), ② CLIP ViT-L-336px(해상도↑), ③ academic-task VQA 데이터 + response-format 프롬프트 — 만으로 11개 벤치마크 SOTA. 최종 13B 모델이 공개 데이터 1.2M만 쓰고 8×A100 1일로 학습된다. Q-Former 같은 resampler나 수억~수십억 데이터가 필수가 아님을 입증.
배경
LLaVA는 대화형 시각 추론에 강하지만, InstructBLIP은 전통적 단답형 VQA에 강하다. 둘은 아키텍처·데이터가 크게 달라, 능력 차이의 근본 원인이 불분명했다 — 학습 데이터량? Q-Former 같은 resampler의 효과?
LMM을 범용 어시스턴트로 키우는 최선의 레시피는 무엇인가? connector는 정말 복잡해야 하나?
이 논문은 LLaVA 프레임워크 위에서 design choice를 통제 실험으로 따지고, fully-connected connector가 놀랍도록 강력하다는 결론에 이른다.
핵심 아이디어 — 세 가지 간단한 수정
단일 linear → 2-layer MLP. (SSL에서 linear→MLP가 표현력을 올린 데서 착안) connector 표현력↑.
비전 인코더를 CLIP ViT-L-336px로 교체(224→336). 디테일을 더 또렷이 본다.
VQA·OCR·region-level 데이터 추가 + response-format 프롬프트로 단답/장답 제어.
방법
1) Response Format Prompting — 단답/장답 균형
InstructBLIP은 단답형 VQA에 과적합해 자연스러운 대화에서도 짧게만 답하는 문제가 있었다. 저자들은 원인을 둘로 본다.
- 모호한 포맷 프롬프트 —
Q: {} A: {}식 프롬프트는 원하는 출력 형식을 명시하지 않아, LLM이 행동적으로 단답에 과적합된다. - LLM을 fine-tune하지 않음 — InstructBLIP은 Q-Former만 튜닝하므로, 제한된 용량의 Q-Former가 출력 길이를 제어해야 해 한계가 크다.
해결책은 단순하다 — 단답을 원할 때 질문 끝에 명확한 포맷 프롬프트를 붙인다: “Answer the question using a single word or phrase.” (객관식은 “Answer with the option’s letter from the given choices directly.”). LLM까지 fine-tune하므로 모델이 지시대로 형식을 조절한다. VQAv2만 추가해도 MME가 809.6 → 1323.8로 뛰고 InstructBLIP을 111점 능가.
2) MLP connector & academic-task 데이터
- MLP connector — 단일 선형 투영을 2-layer MLP로 바꿔 vision-language 정렬 표현력을 높인다.
- academic-task 데이터 — VQA(VQAv2·GQA·OKVQA·A-OKVQA), OCR(OCRVQA·TextCaps), region-level(Visual Genome·RefCOCO)을 추가. InstructBLIP이 쓰는 데이터의 일부만으로도 세 대표 능력에서 이를 능가하고, region-level은 세밀한 위치 파악을 강화한다.
- 추가 스케일업 — 입력 해상도 336px, GQA·ShareGPT 데이터 추가, LLM을 13B로.
336px 입력 때문에 학습 시간은 LLaVA의 약 2배(사전학습 6h + instruction tuning 20h, 8×A100)지만, 여전히 하루 안에 끝난다.
3) Scaling to Higher Resolution — LLaVA-1.5-HD
CLIP의 해상도 상한(336)을 넘기 위해, ViT의 positional embedding interpolation(대규모 재학습 필요) 대신 이미지를 grid로 쪼개 각각 독립 인코딩한 뒤 feature map으로 합친다. 여기에 downsample한 전체 이미지 feature를 concat해 LLM에 global context를 준다. 임의 해상도로 확장하면서 data efficiency를 유지 → LLaVA-1.5-HD.
결과
- 공개 데이터만으로 11개 SOTA — academic VQA(Table 3)와 instruction-following 벤치마크(Table 4) 전반에서 최고. in-house 데이터를 쓰는 Qwen-VL과 달리 전부 공개 데이터.
- 데이터 효율 — 학습 데이터를 50%로 줄여도 성능의 98% 이상 유지(MMBench·ScienceQA·POPE는 거의 불변). “less-is-more”가 멀티모달에도 적용.
- hallucination — 입력 해상도를 키우면(448²) hallucination이 크게 줄어든다. 즉 데이터의 소량 오류보다 모델이 디테일을 못 볼 때 환각을 학습한다는 관점.
- compositional 능력 — ShareGPT로 언어·다국어 능력↑(더 길고 자세한 응답), academic 데이터로 시각적 groundness↑ — 명시적 joint training 없이 조합 능력으로 일반화.
한 줄 정리 & 의의
- “가장 단순한 fully-connected(MLP) connector + 적절한 데이터·포맷·해상도” 만으로 SOTA — resampler(Q-Former)나 수억~수십억 데이터가 필수가 아님을 통제 실험으로 입증. 공개 데이터 1.2M·1일 학습으로 재현 가능한 강력 baseline.
- LLaVA의 연장선 — connector 경량 노선의 결정판이자, response-format 프롬프트로 단답/장답 균형 문제를 깔끔히 해결.
- 위치(connector 계열). Flamingo(cross-attention)·BLIP-2(Q-Former)와 달리, 단순 projection 노선이 효율·성능 모두를 잡을 수 있음을 확립 → 이후 수많은 오픈소스 LMM의 표준 baseline. → VLM 개요