[InternVL] Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
Zhe Chen, Jiannan Wu, Wenhai Wang, … Jifeng Dai · OpenGVLab (Shanghai AI Lab) 외
한 줄 요약. "비전 인코더가 LLM에 비해 너무 작다"는 문제의식. 기존 VLM은 작은 비전 인코더(CLIP ViT-L ~300M) + 거대 LLM(7B+) 으로 불균형하고, 둘을 잇는 connector도 단순하다. InternVL은 ① 비전 인코더를 6B(InternViT-6B)로 스케일하고, ② QLLaMA(8B) "언어 미들웨어"(multilingual LLaMA로 초기화)를 강한 접착제로 두며, ③ progressive alignment(노이즈 데이터로 contrastive → 고품질로 generative → SFT)로 정렬한다. 그 결과 비전 인코더·CLIP식 모델·멀티모달 대화(InternVL-Chat)로 두루 쓰이며 32개 벤치마크 SOTA, ViT-22B의 대안급.
배경 — 인코더와 LLM의 불균형
LLM은 폭발적으로 커졌는데, 비전 쪽은 그 속도를 못 따라갔다. 대부분의 VLM은:
- 파라미터 불균형 — 비전 인코더(예: CLIP ViT-L ~300M)는 작고 LLM(7B~70B)은 거대하다. 표현력·규모 격차가 크다.
- 약한 connector — 둘을 잇는 게 단순 projection이나 가벼운 Q-Former라, 큰 격차를 메우기엔 부족하다.
그러면 비전 인코더를 LLM 급으로 키우고, 그 둘을 제대로 정렬할 강한 중간 다리를 두면 어떨까?
핵심 아이디어 — 세 가지 설계
비전 인코더를 InternViT-6B(6B)로 스케일 + QLLaMA(8B) 언어 미들웨어 → 비전·언어 규모를 맞춘다.
QLLaMA를 multilingual LLaMA로 초기화해, 비전 특징을 LLM과 같은 언어 공간으로 끌어온다.
노이즈 웹 데이터로 contrastive → 고품질로 generative → SFT 순으로 점진 정렬(학습 안정성↑).
QLLaMA = “미들웨어(middleware)”. 단순 connector가 아니라, 사용자 명령에 맞게 시각 특징을 재조직하는 실질적 “glue” 층이다. 비전 인코더와 off-the-shelf LLM 디코더 사이를 잇거나, 그 자체로 contrastive 정렬에도 쓰인다.
방법 — 3단계 progressive 학습
| 단계 | 무엇을 | 데이터 |
|---|---|---|
| ① Contrastive | InternViT-6B + QLLaMA를 CLIP식 대조학습(symmetric CE) | 웹 노이즈 image-text 4.98B |
| ② Generative | 둘을 연결, freeze하고 새 learnable query + cross-attention만 학습(생성) | 필터링한 고품질 1.03B |
| ③ SFT | LLM 디코더(Vicuna 등)에 MLP로 연결, instruction tuning → InternVL-Chat | 고품질 instruction 약 4M |
- 단계별 산출물: InternVL-C(①후, 대조) · InternVL-G(②후, 생성) · InternVL-Chat(③후, 대화).
결과
- 만능·SOTA — 시각 인식(분류·분할), zero-shot 분류·검색(다국어), 캡셔닝, 멀티모달 대화까지 32개 벤치마크 SOTA. 비전 인코더로만 써도 ViT-22B의 좋은 대안.
- 다국어 검색 — QLLaMA가 multilingual LLaMA 기반이라, 영/중 등 다국어 image-text retrieval에 특히 강하다.
- InternVL-Chat — 캡셔닝·VQA·대화(MME·POPE 등)에서 Qwen-VL·LLaVA-1.5와 견줘 최상위.
한 줄 정리 & 의의
- “비전 인코더를 LLM 급으로 키운다” 는 다른 축의 G3. 데이터/지시튜닝을 키운 LLaVA·LLaVA-1.5와 달리, InternVL은 불균형(작은 인코더 vs 거대 LLM) 을 인코더 스케일(InternViT-6B) + 강한 미들웨어(QLLaMA) 로 정면 돌파한다.
- progressive alignment(contrastive→generative→SFT)로 노이즈~고품질 데이터를 단계적으로 활용, 학습을 안정화.
- 위치. G3(instruction-tuned VLM)이되, connector·인코더를 LLaVA처럼 단순화하는 흐름과 반대로 “키워서 정렬” 하는 노선. 이후 InternVL 2/2.5로 dynamic resolution 등으로 확장된다. → VLM 개요