[Kosmos-1] Language Is Not All You Need: Aligning Perception with Language Models

VLM G2 arXiv 2023

Shaohan Huang, Li Dong, Wenhui Wang, … Furu Wei · Microsoft

한 줄 요약. "언어만으론 부족하다 — 지각(perception)을 LLM에 정렬하자." Kosmos-1은 멀티모달 LLM(MLLM)로, frozen LLM에 다리를 놓는 대신(↔ Flamingo·BLIP-2) 웹 스케일 interleaved 이미지-텍스트로 처음부터(from scratch) 학습한다. Transformer causal LM을 범용 인터페이스로 두고 이미지 임베딩을 토큰열에 끼워 넣어, gradient 업데이트 없이 zero-shot(instruction following)·few-shot(in-context learning)·multimodal CoT를 수행. 1.6B로 captioning에서 더 큰 Flamingo를 능가하고, Raven IQ(비언어 추론)까지 zero-shot으로 푼다.

배경

LLM은 강력하지만 텍스트만 본다. 저자들은 지각(이미지 등)을 LLM에 정렬하는 것이 AGI로 가는 핵심 단계라고 본다.

왜 지각이 필요한가 — ① 텍스트 설명을 넘어선 상식을 얻고, ② 로보틱스·문서지능 같은 새 task가 열리고, ③ 화면·영수증을 직접 읽는 식으로 인터페이스가 통일된다.
언어 모델 = 범용 인터페이스 — METALM 철학을 따라, 열린 출력 공간 덕에 다양한 task를 텍스트로 통일하고 LLM이 reasoner 역할을 한다.

Flamingo·BLIP-2는 frozen LLM에 다리를 놓았다. 그런데 아예 지각과 언어를 하나로 묶어 처음부터 MLLM을 학습하면 어떨까?

Figure 1. Kosmos-1은 멀티모달 입력을 지각하고, 지시를 따르며, 언어뿐 아니라 멀티모달 task에서도 in-context learning을 한다 — LLM에서 MLLM으로 나아가는 흐름.

핵심 아이디어

범용 인터페이스 = causal LM

Transformer causal LM을 일반 인터페이스로 두고, 모든 모달리티를 토큰열로 통일해 자기회귀 생성.

지각을 끼워 넣기

이미지를 임베딩해 <image>…</image>로 감싸 텍스트와 interleave. 지각이 언어와 같은 공간에.

from scratch 학습

frozen LLM이 아니라 웹 스케일 멀티모달로 처음부터 학습 → ICL·instruction following을 그대로 획득.

방법

1) 입력 형식 — 모달리티를 토큰열로 통일

<s>/</s>로 시퀀스 시작·끝을, <image>/</image>로 이미지 임베딩 구간을 표시한다. 예: <s> paragraph <image> 이미지 임베딩 </image> paragraph </s> → 임의로 섞인 이미지-텍스트를 그대로 먹는다.

비전 — 사전학습 CLIP ViT-L/14(마지막 층만 학습, 나머지 freeze)로 이미지를 임베딩하고, Resampler(attentive pooling)로 이미지 토큰 수를 줄인다.
백본 — MAGNETO(서브레이어마다 LayerNorm 추가 → 학습 안정성↑) + xPOS 상대 위치 인코딩(긴 문맥 일반화). MLLM 1.3B + CLIP → 총 약 1.6B.

2) 학습 — 웹 스케일 멀티모달 corpora (from scratch)

세 종류 데이터를 섞어 multimodal language modeling으로 학습한다.

데이터	역할
텍스트 코퍼스	표현 학습 — ICL·instruction following·언어 task 사전학습
이미지-캡션 쌍	지각을 언어에 정렬
interleaved 이미지-텍스트 (Common Crawl 71M 웹페이지, 문서당 ≤5 이미지)	섞인 입력 처리 + few-shot 능력 강화

약 360B 토큰, 300k step. gradient 업데이트·finetuning 없이 zero/few-shot 평가.

3) Language-only Instruction Tuning

언어 전용 instruction 데이터(Unnatural Instructions + FLANv2)로 추가 튜닝한다. 흥미롭게도 언어로만 튜닝해도 instruction-following 능력이 모달리티를 건너 전이(cross-modal transfer)된다.

Figure 2. Kosmos-1의 생성 예시 — 시각 대화·설명·VQA·간단한 수식·OCR·설명 기반 zero-shot 분류 등 지각 집약적 task를 자연스럽게 처리.

결과

평가는 gradient 업데이트 없이 zero-shot / few-shot / multimodal CoT로 수행.

Table 1. Kosmos-1이 zero-/few-shot으로 다루는 능력 — 언어, perception-language(캡셔닝·VQA·대화·OCR-free), 비전(설명 기반 분류), 그리고 비언어 추론(Raven IQ)·cross-modal transfer.

captioning — zero-shot Flickr30k CIDEr 67.1로 Flamingo-3B(60.6)·Flamingo-9B(61.5)를 능가. 1.6B로 더 큰 Flamingo를 이긴다.

Table 4. zero-shot VQA(VQAv2·VizWiz). Kosmos-1이 VizWiz에서 Flamingo-3B/9B보다 높고, VQAv2에서도 경쟁력(다른 모델은 진짜 zero-shot인 반면 Flamingo는 이미지 뺀 2-shot 텍스트 프롬프트 사용).

zero-shot VQA — VizWiz에서 Flamingo-3B/9B보다 높은 정확도·강건성, VQAv2도 경쟁력.
OCR-free / 문서 — 문서 이미지를 직접 먹어 OCR 없이 이해(WebSRC 등).
비언어 추론(Raven IQ) — 3×3 이미지 행렬의 다음 칸을 zero-shot으로 추론. 모델이 zero-shot Raven IQ를 푼 최초 사례(랜덤 대비 향상). 언어 instruction tuning이 IQ 점수도 올린다.
cross-modal transfer — 언어↔멀티모달 지식 전이. MLLM이 같은 규모 LLM보다 commonsense 추론이 낫다 → 지각이 지식 습득을 돕는다.

Figure 5. Multimodal Chain-of-Thought. 먼저 이미지로부터 rationale(근거)을 생성하고, 그 근거 + task 프롬프트로 최종 답을 내 복잡한 추론 성능을 끌어올린다.

한 줄 정리 & 의의

frozen LLM에 다리를 놓는 대신(Flamingo·BLIP-2), 지각과 언어를 묶어 처음부터 학습한 MLLM. causal LM을 범용 인터페이스로 두고 이미지 임베딩을 토큰열에 끼워 넣어, 하나의 모델이 언어·perception-language·비전·비언어 추론을 zero/few-shot으로 처리.
위치(세대). 시기·패러다임상 G2(멀티모달 LLM + ICL) — 단 Flamingo·BLIP-2가 frozen LLM을 쓰는 것과 달리 Kosmos-1은 from-scratch로 LLM까지 학습한다는 게 차이.
cross-modal transfer(언어로만 튜닝해도 멀티모달 지시 수행이 좋아짐)와 Raven IQ zero-shot은, “지각을 언어에 정렬”하면 새 능력이 창발함을 보인 신호. → VLM 개요