[Kosmos-1] Language Is Not All You Need: Aligning Perception with Language Models
Shaohan Huang, Li Dong, Wenhui Wang, … Furu Wei · Microsoft
한 줄 요약. "언어만으론 부족하다 — 지각(perception)을 LLM에 정렬하자." Kosmos-1은 멀티모달 LLM(MLLM)로, frozen LLM에 다리를 놓는 대신(↔ Flamingo·BLIP-2) 웹 스케일 interleaved 이미지-텍스트로 처음부터(from scratch) 학습한다. Transformer causal LM을 범용 인터페이스로 두고 이미지 임베딩을 토큰열에 끼워 넣어, gradient 업데이트 없이 zero-shot(instruction following)·few-shot(in-context learning)·multimodal CoT를 수행. 1.6B로 captioning에서 더 큰 Flamingo를 능가하고, Raven IQ(비언어 추론)까지 zero-shot으로 푼다.
배경
LLM은 강력하지만 텍스트만 본다. 저자들은 지각(이미지 등)을 LLM에 정렬하는 것이 AGI로 가는 핵심 단계라고 본다.
- 왜 지각이 필요한가 — ① 텍스트 설명을 넘어선 상식을 얻고, ② 로보틱스·문서지능 같은 새 task가 열리고, ③ 화면·영수증을 직접 읽는 식으로 인터페이스가 통일된다.
- 언어 모델 = 범용 인터페이스 — METALM 철학을 따라, 열린 출력 공간 덕에 다양한 task를 텍스트로 통일하고 LLM이 reasoner 역할을 한다.
Flamingo·BLIP-2는 frozen LLM에 다리를 놓았다. 그런데 아예 지각과 언어를 하나로 묶어 처음부터 MLLM을 학습하면 어떨까?
핵심 아이디어
Transformer causal LM을 일반 인터페이스로 두고, 모든 모달리티를 토큰열로 통일해 자기회귀 생성.
이미지를 임베딩해 <image>…</image>로 감싸 텍스트와 interleave. 지각이 언어와 같은 공간에.
frozen LLM이 아니라 웹 스케일 멀티모달로 처음부터 학습 → ICL·instruction following을 그대로 획득.
방법
1) 입력 형식 — 모달리티를 토큰열로 통일
<s>/</s>로 시퀀스 시작·끝을, <image>/</image>로 이미지 임베딩 구간을 표시한다. 예: <s> paragraph <image> 이미지 임베딩 </image> paragraph </s> → 임의로 섞인 이미지-텍스트를 그대로 먹는다.
- 비전 — 사전학습 CLIP ViT-L/14(마지막 층만 학습, 나머지 freeze)로 이미지를 임베딩하고, Resampler(attentive pooling)로 이미지 토큰 수를 줄인다.
- 백본 — MAGNETO(서브레이어마다 LayerNorm 추가 → 학습 안정성↑) + xPOS 상대 위치 인코딩(긴 문맥 일반화). MLLM 1.3B + CLIP → 총 약 1.6B.
2) 학습 — 웹 스케일 멀티모달 corpora (from scratch)
세 종류 데이터를 섞어 multimodal language modeling으로 학습한다.
| 데이터 | 역할 |
|---|---|
| 텍스트 코퍼스 | 표현 학습 — ICL·instruction following·언어 task 사전학습 |
| 이미지-캡션 쌍 | 지각을 언어에 정렬 |
| interleaved 이미지-텍스트 (Common Crawl 71M 웹페이지, 문서당 ≤5 이미지) | 섞인 입력 처리 + few-shot 능력 강화 |
- 약 360B 토큰, 300k step. gradient 업데이트·finetuning 없이 zero/few-shot 평가.
3) Language-only Instruction Tuning
언어 전용 instruction 데이터(Unnatural Instructions + FLANv2)로 추가 튜닝한다. 흥미롭게도 언어로만 튜닝해도 instruction-following 능력이 모달리티를 건너 전이(cross-modal transfer)된다.
결과
평가는 gradient 업데이트 없이 zero-shot / few-shot / multimodal CoT로 수행.
- captioning — zero-shot Flickr30k CIDEr 67.1로 Flamingo-3B(60.6)·Flamingo-9B(61.5)를 능가. 1.6B로 더 큰 Flamingo를 이긴다.
- zero-shot VQA — VizWiz에서 Flamingo-3B/9B보다 높은 정확도·강건성, VQAv2도 경쟁력.
- OCR-free / 문서 — 문서 이미지를 직접 먹어 OCR 없이 이해(WebSRC 등).
- 비언어 추론(Raven IQ) — 3×3 이미지 행렬의 다음 칸을 zero-shot으로 추론. 모델이 zero-shot Raven IQ를 푼 최초 사례(랜덤 대비 향상). 언어 instruction tuning이 IQ 점수도 올린다.
- cross-modal transfer — 언어↔멀티모달 지식 전이. MLLM이 같은 규모 LLM보다 commonsense 추론이 낫다 → 지각이 지식 습득을 돕는다.
한 줄 정리 & 의의
- frozen LLM에 다리를 놓는 대신(Flamingo·BLIP-2), 지각과 언어를 묶어 처음부터 학습한 MLLM. causal LM을 범용 인터페이스로 두고 이미지 임베딩을 토큰열에 끼워 넣어, 하나의 모델이 언어·perception-language·비전·비언어 추론을 zero/few-shot으로 처리.
- 위치(세대). 시기·패러다임상 G2(멀티모달 LLM + ICL) — 단 Flamingo·BLIP-2가 frozen LLM을 쓰는 것과 달리 Kosmos-1은 from-scratch로 LLM까지 학습한다는 게 차이.
- cross-modal transfer(언어로만 튜닝해도 멀티모달 지시 수행이 좋아짐)와 Raven IQ zero-shot은, “지각을 언어에 정렬”하면 새 능력이 창발함을 보인 신호. → VLM 개요