[Gemini] A Family of Highly Capable Multimodal Models
Gemini Team · Google
한 줄 요약. 구글의 프런티어 멀티모달 패밀리. 핵심은 처음부터 텍스트·이미지·오디오·비디오를 함께(natively) 사전학습한다는 것 — 앞 세대처럼 다 만든 LLM에 비전 인코더를 나중에 붙이는(bolt-on) 방식이 아니라, 단일 모델이 네 모달리티를 처음부터 한 몸으로 배운다. Ultra·Pro·Nano 세 크기(복잡한 추론 → 온디바이스)로 출시했고, Ultra는 32개 벤치마크 중 30개에서 SOTA, MMLU에서 사람 전문가(90%+)를 처음 넘긴 모델. Transformer 디코더 기반, 32k 컨텍스트, 입력은 텍스트·오디오·이미지·비디오를 자유롭게 interleave, 출력은 텍스트+이미지.
배경
앞 세대 VLM(LLaVA·BLIP-2 등)은 대체로 이미 학습을 마친 LLM에 비전 인코더를 다리(projector)로 붙이는 구성이다 — 언어는 LLM이, 시각은 인코더가 따로 배운 뒤 연결한다.
- 이 방식은 보통 이미지(+텍스트) 에 집중하고, 오디오·비디오는 별도 모델이거나 약하다.
- 모달리티를 나중에 이어 붙이다 보니, 모달리티를 가로지르는(cross-modal) 추론이 자연스럽지 않을 수 있다.
그렇다면 비전을 나중에 붙이지 말고, 처음부터 텍스트·이미지·오디오·비디오를 한 모델로 함께 사전학습하면 어떨까?
핵심 아이디어
텍스트·이미지·오디오·비디오를 처음부터 함께 학습. 비전 인코딩은 Flamingo·CoCa·PaLI 계보지만, 처음부터 멀티모달이고 이미지도 네이티브로 출력(discrete image token)하는 게 결정적 차이.
이미지·차트·스크린샷·PDF·비디오(프레임 시퀀스)·오디오(16kHz)를 텍스트와 자유롭게 섞어 입력. 가변 해상도로 필요한 곳에 연산을 더 쓴다.
한 레시피를 세 크기로. Ultra(최고 성능)·Pro(비용/지연 균형)·Nano(온디바이스, 1.8B/3.25B, 증류·4-bit). 복잡한 추론부터 휴대폰까지 커버.
왜 “from the beginning”이 다른가
대부분의 G2~G3 VLM은 순서가 분리돼 있다 — ①언어 LLM을 먼저 완성 → ②비전 인코더를 따로 학습 → ③둘을 다리로 연결(이때만 멀티모달). 반면 Gemini는 ①부터 네 모달리티가 같은 모델 안에서 함께 학습된다.
| 앞 세대(bolt-on) | Gemini(native) | |
|---|---|---|
| 시작점 | 완성된 LLM에 비전을 나중에 부착 | 처음부터 텍스트+이미지+오디오+비디오 |
| 모달리티 | 주로 이미지(+텍스트) | 4종(텍스트·이미지·오디오·비디오) |
| 출력 | 텍스트 | 텍스트 + 이미지(discrete token) |
| 비디오/오디오 | 별도 모델이거나 약함 | 한 모델이 프레임 시퀀스·16kHz 오디오까지 |
- 오디오 — 텍스트로 옮기지 않고 USM 특징(16kHz)을 직접 먹어, 텍스트화하면 사라지는 뉘앙스를 포착.
- 비디오 — 긴 컨텍스트 윈도우 안에 프레임 시퀀스로 인코딩, 텍스트·오디오와 interleave.
결과
- 텍스트·추론 — Ultra가 MMLU 90%+ 로 사람 전문가를 처음 넘김. 32개 벤치마크 중 30개 SOTA.
- 멀티모달 — MMMU 62.4%(직전 최고 대비 +5%p), 이미지·비디오·음성 이해 벤치마크 전반 SOTA급.
한 줄 정리 & 의의
- 처음부터 텍스트·이미지·오디오·비디오를 함께(natively) 사전학습한 프런티어 멀티모달 패밀리(1.0 Ultra/Pro/Nano). 비전을 나중에 붙이는 대신 네 모달리티를 한 몸으로 배운다.
- 차별점. LLaVA·BLIP-2 류가 완성된 LLM + 부착한 비전 인코더라면, Gemini는 인코더·커넥터·LLM으로 분리되지 않는 네이티브 멀티모달 — 그래서 표의 Encoder/Connector 칸이 “—”다. 오디오·비디오·이미지 출력까지 한 모델.
- 위치(세대). G4(Native Multimodal)의 대표격. LLaVA-OneVision이 오픈 진영에서 입력을 비디오·멀티이미지로 넓힌 노선이라면, Gemini는 처음부터 모든 모달리티를 함께 학습한 상용 프런티어 노선. → VLM 개요