[Gemini] A Family of Highly Capable Multimodal Models

VLM G4 arXiv 2023

Gemini Team · Google

arXiv Project

한 줄 요약. 구글의 프런티어 멀티모달 패밀리. 핵심은 처음부터 텍스트·이미지·오디오·비디오를 함께(natively) 사전학습한다는 것 — 앞 세대처럼 다 만든 LLM에 비전 인코더를 나중에 붙이는(bolt-on) 방식이 아니라, 단일 모델이 네 모달리티를 처음부터 한 몸으로 배운다. Ultra·Pro·Nano 세 크기(복잡한 추론 → 온디바이스)로 출시했고, Ultra는 32개 벤치마크 중 30개에서 SOTA, MMLU에서 사람 전문가(90%+)를 처음 넘긴 모델. Transformer 디코더 기반, 32k 컨텍스트, 입력은 텍스트·오디오·이미지·비디오를 자유롭게 interleave, 출력은 텍스트+이미지.

배경

앞 세대 VLM(LLaVA·BLIP-2 등)은 대체로 이미 학습을 마친 LLM비전 인코더를 다리(projector)로 붙이는 구성이다 — 언어는 LLM이, 시각은 인코더가 따로 배운 뒤 연결한다.

  • 이 방식은 보통 이미지(+텍스트) 에 집중하고, 오디오·비디오는 별도 모델이거나 약하다.
  • 모달리티를 나중에 이어 붙이다 보니, 모달리티를 가로지르는(cross-modal) 추론이 자연스럽지 않을 수 있다.

그렇다면 비전을 나중에 붙이지 말고, 처음부터 텍스트·이미지·오디오·비디오를 한 모델로 함께 사전학습하면 어떨까?

Figure 2. Gemini는 텍스트·이미지·오디오·비디오를 자유롭게 섞은(interleaved) 시퀀스를 입력으로 받고(색깔별 토큰), 텍스트와 이미지가 섞인 응답을 출력한다. 모달리티를 나중에 붙인 게 아니라 '처음부터' 함께 다룬다.

핵심 아이디어

Natively multimodal

텍스트·이미지·오디오·비디오를 처음부터 함께 학습. 비전 인코딩은 Flamingo·CoCa·PaLI 계보지만, 처음부터 멀티모달이고 이미지도 네이티브로 출력(discrete image token)하는 게 결정적 차이.

한 시퀀스로 interleave

이미지·차트·스크린샷·PDF·비디오(프레임 시퀀스)·오디오(16kHz)를 텍스트와 자유롭게 섞어 입력. 가변 해상도로 필요한 곳에 연산을 더 쓴다.

Ultra · Pro · Nano

한 레시피를 세 크기로. Ultra(최고 성능)·Pro(비용/지연 균형)·Nano(온디바이스, 1.8B/3.25B, 증류·4-bit). 복잡한 추론부터 휴대폰까지 커버.

왜 “from the beginning”이 다른가

대부분의 G2~G3 VLM은 순서가 분리돼 있다 — ①언어 LLM을 먼저 완성 → ②비전 인코더를 따로 학습 → ③둘을 다리로 연결(이때만 멀티모달). 반면 Gemini는 ①부터 네 모달리티가 같은 모델 안에서 함께 학습된다.

  앞 세대(bolt-on) Gemini(native)
시작점 완성된 LLM에 비전을 나중에 부착 처음부터 텍스트+이미지+오디오+비디오
모달리티 주로 이미지(+텍스트) 4종(텍스트·이미지·오디오·비디오)
출력 텍스트 텍스트 + 이미지(discrete token)
비디오/오디오 별도 모델이거나 약함 한 모델이 프레임 시퀀스·16kHz 오디오까지
  • 오디오 — 텍스트로 옮기지 않고 USM 특징(16kHz)을 직접 먹어, 텍스트화하면 사라지는 뉘앙스를 포착.
  • 비디오 — 긴 컨텍스트 윈도우 안에 프레임 시퀀스로 인코딩, 텍스트·오디오와 interleave.

결과

Figure 1. 손글씨 물리 풀이 채점 예시. 이미지 속 지저분한 손글씨를 읽고, 문제 설정을 이해하고, 학생이 틀린 단계를 짚어 올바른 풀이를 LaTeX로 출력한다 — 모달리티를 가로지르는 추론.
  • 텍스트·추론 — Ultra가 MMLU 90%+ 로 사람 전문가를 처음 넘김. 32개 벤치마크 중 30개 SOTA.
  • 멀티모달 — MMMU 62.4%(직전 최고 대비 +5%p), 이미지·비디오·음성 이해 벤치마크 전반 SOTA급.
Table 7. 이미지 이해 벤치마크. Gemini Ultra는 외부 OCR 엔진 없이(pixel only) zero-shot에서도 기존 접근을 일관되게 능가한다.

한 줄 정리 & 의의

  • 처음부터 텍스트·이미지·오디오·비디오를 함께(natively) 사전학습한 프런티어 멀티모달 패밀리(1.0 Ultra/Pro/Nano). 비전을 나중에 붙이는 대신 네 모달리티를 한 몸으로 배운다.
  • 차별점. LLaVA·BLIP-2 류가 완성된 LLM + 부착한 비전 인코더라면, Gemini는 인코더·커넥터·LLM으로 분리되지 않는 네이티브 멀티모달 — 그래서 표의 Encoder/Connector 칸이 “—”다. 오디오·비디오·이미지 출력까지 한 모델.
  • 위치(세대). G4(Native Multimodal)의 대표격. LLaVA-OneVision오픈 진영에서 입력을 비디오·멀티이미지로 넓힌 노선이라면, Gemini는 처음부터 모든 모달리티를 함께 학습한 상용 프런티어 노선. → VLM 개요