[InternVL] Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

VLM G3 CVPR 2024

Zhe Chen, Jiannan Wu, Wenhai Wang, … Jifeng Dai · OpenGVLab (Shanghai AI Lab) 외

한 줄 요약. "비전 인코더가 LLM에 비해 너무 작다"는 문제의식. 기존 VLM은 작은 비전 인코더(CLIP ViT-L ~300M) + 거대 LLM(7B+) 으로 불균형하고, 둘을 잇는 connector도 단순하다. InternVL은 ① 비전 인코더를 6B(InternViT-6B)로 스케일하고, ② QLLaMA(8B) "언어 미들웨어"(multilingual LLaMA로 초기화)를 강한 접착제로 두며, ③ progressive alignment(노이즈 데이터로 contrastive → 고품질로 generative → SFT)로 정렬한다. 그 결과 비전 인코더·CLIP식 모델·멀티모달 대화(InternVL-Chat)로 두루 쓰이며 32개 벤치마크 SOTA, ViT-22B의 대안급.

배경 — 인코더와 LLM의 불균형

LLM은 폭발적으로 커졌는데, 비전 쪽은 그 속도를 못 따라갔다. 대부분의 VLM은:

파라미터 불균형 — 비전 인코더(예: CLIP ViT-L ~300M)는 작고 LLM(7B~70B)은 거대하다. 표현력·규모 격차가 크다.
약한 connector — 둘을 잇는 게 단순 projection이나 가벼운 Q-Former라, 큰 격차를 메우기엔 부족하다.

그러면 비전 인코더를 LLM 급으로 키우고, 그 둘을 제대로 정렬할 강한 중간 다리를 두면 어떨까?

Figure 1. 비전/비전-언어 foundation model 비교. (a) 비전 전용(ResNet), (b) dual-tower(CLIP), (c) InternVL — 대규모 비전 인코더(InternViT-6B)를 LLM과 정렬, contrastive·generative 둘 다 가능.

핵심 아이디어 — 세 가지 설계

① 파라미터 균형

비전 인코더를 InternViT-6B(6B)로 스케일 + QLLaMA(8B) 언어 미들웨어 → 비전·언어 규모를 맞춘다.

② 일관된 표현

QLLaMA를 multilingual LLaMA로 초기화해, 비전 특징을 LLM과 같은 언어 공간으로 끌어온다.

③ Progressive alignment

노이즈 웹 데이터로 contrastive → 고품질로 generative → SFT 순으로 점진 정렬(학습 안정성↑).

QLLaMA = “미들웨어(middleware)”. 단순 connector가 아니라, 사용자 명령에 맞게 시각 특징을 재조직하는 실질적 “glue” 층이다. 비전 인코더와 off-the-shelf LLM 디코더 사이를 잇거나, 그 자체로 contrastive 정렬에도 쓰인다.

방법 — 3단계 progressive 학습

Figure 3. InternVL의 3단계 학습 — ① vision-language contrastive, ② vision-language generative, ③ supervised fine-tuning. 노이즈 웹 image-text부터 고품질 caption·VQA·대화 데이터까지 점진적으로 활용.

단계	무엇을	데이터
① Contrastive	InternViT-6B + QLLaMA를 CLIP식 대조학습(symmetric CE)	웹 노이즈 image-text 4.98B
② Generative	둘을 연결, freeze하고 새 learnable query + cross-attention만 학습(생성)	필터링한 고품질 1.03B
③ SFT	LLM 디코더(Vicuna 등)에 MLP로 연결, instruction tuning → InternVL-Chat	고품질 instruction 약 4M

단계별 산출물: InternVL-C(①후, 대조) · InternVL-G(②후, 생성) · InternVL-Chat(③후, 대화).

Figure 4. InternVL의 다양한 사용법. 비전 인코더와 언어 미들웨어를 유연하게 조합해 contrastive·generative·멀티모달 대화를 모두 지원 — 'Swiss Army knife'.

결과

Figure 2. 이미지/비디오 분류·검색·캡셔닝·멀티모달 대화 등 다양한 task 비교. 공개 데이터로 학습한 모델 중 InternVL이 전반적으로 최고.

만능·SOTA — 시각 인식(분류·분할), zero-shot 분류·검색(다국어), 캡셔닝, 멀티모달 대화까지 32개 벤치마크 SOTA. 비전 인코더로만 써도 ViT-22B의 좋은 대안.
다국어 검색 — QLLaMA가 multilingual LLaMA 기반이라, 영/중 등 다국어 image-text retrieval에 특히 강하다.

Table 9. captioning·VQA·멀티모달 대화 SOTA 비교. LLM과 연결+SFT한 InternVL-Chat이 Qwen-VL·LLaVA-1.5 등과 견줘 최상위.

InternVL-Chat — 캡셔닝·VQA·대화(MME·POPE 등)에서 Qwen-VL·LLaVA-1.5와 견줘 최상위.

한 줄 정리 & 의의

“비전 인코더를 LLM 급으로 키운다” 는 다른 축의 G3. 데이터/지시튜닝을 키운 LLaVA·LLaVA-1.5와 달리, InternVL은 불균형(작은 인코더 vs 거대 LLM) 을 인코더 스케일(InternViT-6B) + 강한 미들웨어(QLLaMA) 로 정면 돌파한다.
progressive alignment(contrastive→generative→SFT)로 노이즈~고품질 데이터를 단계적으로 활용, 학습을 안정화.
위치. G3(instruction-tuned VLM)이되, connector·인코더를 LLaVA처럼 단순화하는 흐름과 반대로 “키워서 정렬” 하는 노선. 이후 InternVL 2/2.5로 dynamic resolution 등으로 확장된다. → VLM 개요