[LLaVA-1.5] Improved Baselines with Visual Instruction Tuning

VLM CVPR 2024

Haotian Liu, Chunyuan Li, Yuheng Li, Yong Jae Lee · UW-Madison / Microsoft Research

한 줄 요약. LLaVA의 design choice를 통제된 환경에서 체계적으로 연구해, 단순한 fully-connected connector가 의외로 강력·data-efficient 함을 보인다. 세 가지 간단한 수정 — ① MLP projection(linear→2-layer MLP), ② CLIP ViT-L-336px(해상도↑), ③ academic-task VQA 데이터 + response-format 프롬프트 — 만으로 11개 벤치마크 SOTA. 최종 13B 모델이 공개 데이터 1.2M만 쓰고 8×A100 1일로 학습된다. Q-Former 같은 resampler나 수억~수십억 데이터가 필수가 아님을 입증.

배경

LLaVA는 대화형 시각 추론에 강하지만, InstructBLIP은 전통적 단답형 VQA에 강하다. 둘은 아키텍처·데이터가 크게 달라, 능력 차이의 근본 원인이 불분명했다 — 학습 데이터량? Q-Former 같은 resampler의 효과?

LMM을 범용 어시스턴트로 키우는 최선의 레시피는 무엇인가? connector는 정말 복잡해야 하나?

이 논문은 LLaVA 프레임워크 위에서 design choice를 통제 실험으로 따지고, fully-connected connector가 놀랍도록 강력하다는 결론에 이른다.

Figure 1. LLaVA-1.5는 11개 task에서 SOTA(위)를, 높은 샘플 효율(왼쪽)과 단순한 수정(오른쪽: MLP connector + response-format 프롬프트를 동반한 academic-task 데이터)으로 달성한다.

핵심 아이디어 — 세 가지 간단한 수정

① MLP connector

단일 linear → 2-layer MLP. (SSL에서 linear→MLP가 표현력을 올린 데서 착안) connector 표현력↑.

② 해상도↑

비전 인코더를 CLIP ViT-L-336px로 교체(224→336). 디테일을 더 또렷이 본다.

③ academic 데이터 + 포맷

VQA·OCR·region-level 데이터 추가 + response-format 프롬프트로 단답/장답 제어.

방법

1) Response Format Prompting — 단답/장답 균형

InstructBLIP은 단답형 VQA에 과적합해 자연스러운 대화에서도 짧게만 답하는 문제가 있었다. 저자들은 원인을 둘로 본다.

모호한 포맷 프롬프트 — Q: {} A: {} 식 프롬프트는 원하는 출력 형식을 명시하지 않아, LLM이 행동적으로 단답에 과적합된다.
LLM을 fine-tune하지 않음 — InstructBLIP은 Q-Former만 튜닝하므로, 제한된 용량의 Q-Former가 출력 길이를 제어해야 해 한계가 크다.

해결책은 단순하다 — 단답을 원할 때 질문 끝에 명확한 포맷 프롬프트를 붙인다: “Answer the question using a single word or phrase.” (객관식은 “Answer with the option’s letter from the given choices directly.”). LLM까지 fine-tune하므로 모델이 지시대로 형식을 조절한다. VQAv2만 추가해도 MME가 809.6 → 1323.8로 뛰고 InstructBLIP을 111점 능가.

Table 1. (a) InstructBLIP이 단답/장답 균형에 실패하는 예시, (b) 포맷 프롬프트의 효과 — 같은 이미지에 명확한 형식 지시를 주면 출력 형식이 정확히 바뀐다.

2) MLP connector & academic-task 데이터

MLP connector — 단일 선형 투영을 2-layer MLP로 바꿔 vision-language 정렬 표현력을 높인다.
academic-task 데이터 — VQA(VQAv2·GQA·OKVQA·A-OKVQA), OCR(OCRVQA·TextCaps), region-level(Visual Genome·RefCOCO)을 추가. InstructBLIP이 쓰는 데이터의 일부만으로도 세 대표 능력에서 이를 능가하고, region-level은 세밀한 위치 파악을 강화한다.
추가 스케일업 — 입력 해상도 336px, GQA·ShareGPT 데이터 추가, LLM을 13B로.

Table 2. 데이터·모델·해상도 스케일업의 단계별 효과(GQA=단답 VQA, MME=형식 제어 VQA, MM-Vet=자연 대화). 각 수정이 누적되며 성능이 오른다 — 마지막 두 행이 LLaVA-1.5.

336px 입력 때문에 학습 시간은 LLaVA의 약 2배(사전학습 6h + instruction tuning 20h, 8×A100)지만, 여전히 하루 안에 끝난다.

3) Scaling to Higher Resolution — LLaVA-1.5-HD

CLIP의 해상도 상한(336)을 넘기 위해, ViT의 positional embedding interpolation(대규모 재학습 필요) 대신 이미지를 grid로 쪼개 각각 독립 인코딩한 뒤 feature map으로 합친다. 여기에 downsample한 전체 이미지 feature를 concat해 LLM에 global context를 준다. 임의 해상도로 확장하면서 data efficiency를 유지 → LLaVA-1.5-HD.

Figure 2. LLaVA-1.5-HD. 이미지를 인코더 고유 해상도의 grid로 쪼개 독립 인코딩 후 병합하고, downsample한 전체 이미지 feature를 더해 global context를 제공. positional embedding 보간 없이 임의 해상도 지원.

결과

Table 3. academic-task(VQA) 벤치마크 SOTA 비교. LLaVA-1.5가 5개 중 4개 최고, 나머지 1개 2위.

Table 4. instruction-following LMM용 벤치마크 비교. LLaVA-1.5가 전반적으로 최고 — 공개 데이터만으로 달성.

공개 데이터만으로 11개 SOTA — academic VQA(Table 3)와 instruction-following 벤치마크(Table 4) 전반에서 최고. in-house 데이터를 쓰는 Qwen-VL과 달리 전부 공개 데이터.
데이터 효율 — 학습 데이터를 50%로 줄여도 성능의 98% 이상 유지(MMBench·ScienceQA·POPE는 거의 불변). “less-is-more”가 멀티모달에도 적용.
hallucination — 입력 해상도를 키우면(448²) hallucination이 크게 줄어든다. 즉 데이터의 소량 오류보다 모델이 디테일을 못 볼 때 환각을 학습한다는 관점.
compositional 능력 — ShareGPT로 언어·다국어 능력↑(더 길고 자세한 응답), academic 데이터로 시각적 groundness↑ — 명시적 joint training 없이 조합 능력으로 일반화.

Figure 3. LLM 선택에 대한 ablation — 데이터 포인트는 각 데이터셋에서 최고 변형 대비 상대 성능.

한 줄 정리 & 의의

“가장 단순한 fully-connected(MLP) connector + 적절한 데이터·포맷·해상도” 만으로 SOTA — resampler(Q-Former)나 수억~수십억 데이터가 필수가 아님을 통제 실험으로 입증. 공개 데이터 1.2M·1일 학습으로 재현 가능한 강력 baseline.
LLaVA의 연장선 — connector 경량 노선의 결정판이자, response-format 프롬프트로 단답/장답 균형 문제를 깔끔히 해결.
위치(connector 계열). Flamingo(cross-attention)·BLIP-2(Q-Former)와 달리, 단순 projection 노선이 효율·성능 모두를 잡을 수 있음을 확립 → 이후 수많은 오픈소스 LMM의 표준 baseline. → VLM 개요