Overview
VLM
BLIP G1 ICML 2022
Flamingo G2 NeurIPS 2022
BLIP-2 G2 ICML 2023
Kosmos-1 G2 arXiv 2023
LLaVA G3 NeurIPS 2023
MiniGPT-4 G3 arXiv 2023
InstructBLIP G3 NeurIPS 2023
Qwen-VL G3 arXiv 2023
LLaVA-1.5 G3 CVPR 2024
Gemini G4 arXiv 2023
InternVL G3 CVPR 2024
LLaVA-OneVision G4 arXiv 2024
Qwen2-VL G4 arXiv 2024
InternVL 2.5 G4 arXiv 2024
DeepSeek-VL2 G4 arXiv 2024
Qwen2.5-VL G4 arXiv 2025
InternVL3 G4 arXiv 2025
InternVL3.5 G4 arXiv 2025
Qwen3-VL G4 arXiv 2025
Modality Encoder
CLIP ICML 2021
EVA-CLIP arXiv 2023
Input Projector
P-Former NeurIPS 2023

Overview
Pruning
DynamicViT NeurIPS 2021
EViT ICLR 2022
Evo-ViT AAAI 2022
ATS ECCV 2022
AS-ViT IJCAI 2023
TPS CVPR 2023
Zero-TPrune CVPR 2024
STAR ICLR 2024
Frequency-Aware TR NeurIPS 2025
Token Cropr CVPR 2025
Merging
ToMe ICLR 2023
DTEM NeurIPS 2024
MCTF CVPR 2024
Pooling
TokenLearner NeurIPS 2021
Token Pooling WACV 2023
Hybrid
DiffRate ICCV 2023
Token Fusion (ToFu) WACV 2024

Efficient VLM (0)

Overview

[Gemini] A Family of Highly Capable Multimodal Models

arXiv 2023

2023 · vlm · vlm

VLM G4 arXiv 2023

Gemini Team · Google

arXiv Project

한 줄 요약. 구글의 프런티어 멀티모달 패밀리. 핵심은 처음부터 텍스트·이미지·오디오·비디오를 함께(natively) 사전학습한다는 것 — 앞 세대처럼 다 만든 LLM에 비전 인코더를 나중에 붙이는(bolt-on) 방식이 아니라, 단일 모델이 네 모달리티를 처음부터 한 몸으로 배운다. Ultra·Pro·Nano 세 크기(복잡한 추론 → 온디바이스)로 출시했고, Ultra는 32개 벤치마크 중 30개에서 SOTA, MMLU에서 사람 전문가(90%+)를 처음 넘긴 모델. Transformer 디코더 기반, 32k 컨텍스트, 입력은 텍스트·오디오·이미지·비디오를 자유롭게 interleave, 출력은 텍스트+이미지.

배경

앞 세대 VLM(LLaVA·BLIP-2 등)은 대체로 이미 학습을 마친 LLM에 비전 인코더를 다리(projector)로 붙이는 구성이다 — 언어는 LLM이, 시각은 인코더가 따로 배운 뒤 연결한다.

이 방식은 보통 이미지(+텍스트) 에 집중하고, 오디오·비디오는 별도 모델이거나 약하다.
모달리티를 나중에 이어 붙이다 보니, 모달리티를 가로지르는(cross-modal) 추론이 자연스럽지 않을 수 있다.

그렇다면 비전을 나중에 붙이지 말고, 처음부터 텍스트·이미지·오디오·비디오를 한 모델로 함께 사전학습하면 어떨까?

Figure 2. Gemini는 텍스트·이미지·오디오·비디오를 자유롭게 섞은(interleaved) 시퀀스를 입력으로 받고(색깔별 토큰), 텍스트와 이미지가 섞인 응답을 출력한다. 모달리티를 나중에 붙인 게 아니라 '처음부터' 함께 다룬다.

핵심 아이디어

Natively multimodal

텍스트·이미지·오디오·비디오를 처음부터 함께 학습. 비전 인코딩은 Flamingo·CoCa·PaLI 계보지만, 처음부터 멀티모달이고 이미지도 네이티브로 출력(discrete image token)하는 게 결정적 차이.

한 시퀀스로 interleave

이미지·차트·스크린샷·PDF·비디오(프레임 시퀀스)·오디오(16kHz)를 텍스트와 자유롭게 섞어 입력. 가변 해상도로 필요한 곳에 연산을 더 쓴다.

Ultra · Pro · Nano

한 레시피를 세 크기로. Ultra(최고 성능)·Pro(비용/지연 균형)·Nano(온디바이스, 1.8B/3.25B, 증류·4-bit). 복잡한 추론부터 휴대폰까지 커버.

왜 “from the beginning”이 다른가

대부분의 G2~G3 VLM은 순서가 분리돼 있다 — ①언어 LLM을 먼저 완성 → ②비전 인코더를 따로 학습 → ③둘을 다리로 연결(이때만 멀티모달). 반면 Gemini는 ①부터 네 모달리티가 같은 모델 안에서 함께 학습된다.

	앞 세대(bolt-on)	Gemini(native)
시작점	완성된 LLM에 비전을 나중에 부착	처음부터 텍스트+이미지+오디오+비디오
모달리티	주로 이미지(+텍스트)	4종(텍스트·이미지·오디오·비디오)
출력	텍스트	텍스트 + 이미지(discrete token)
비디오/오디오	별도 모델이거나 약함	한 모델이 프레임 시퀀스·16kHz 오디오까지

오디오 — 텍스트로 옮기지 않고 USM 특징(16kHz)을 직접 먹어, 텍스트화하면 사라지는 뉘앙스를 포착.
비디오 — 긴 컨텍스트 윈도우 안에 프레임 시퀀스로 인코딩, 텍스트·오디오와 interleave.

결과

Figure 1. 손글씨 물리 풀이 채점 예시. 이미지 속 지저분한 손글씨를 읽고, 문제 설정을 이해하고, 학생이 틀린 단계를 짚어 올바른 풀이를 LaTeX로 출력한다 — 모달리티를 가로지르는 추론.

텍스트·추론 — Ultra가 MMLU 90%+ 로 사람 전문가를 처음 넘김. 32개 벤치마크 중 30개 SOTA.
멀티모달 — MMMU 62.4%(직전 최고 대비 +5%p), 이미지·비디오·음성 이해 벤치마크 전반 SOTA급.

Table 7. 이미지 이해 벤치마크. Gemini Ultra는 외부 OCR 엔진 없이(pixel only) zero-shot에서도 기존 접근을 일관되게 능가한다.

한 줄 정리 & 의의

처음부터 텍스트·이미지·오디오·비디오를 함께(natively) 사전학습한 프런티어 멀티모달 패밀리(1.0 Ultra/Pro/Nano). 비전을 나중에 붙이는 대신 네 모달리티를 한 몸으로 배운다.
차별점. LLaVA·BLIP-2 류가 완성된 LLM + 부착한 비전 인코더라면, Gemini는 인코더·커넥터·LLM으로 분리되지 않는 네이티브 멀티모달 — 그래서 표의 Encoder/Connector 칸이 “—”다. 오디오·비디오·이미지 출력까지 한 모델.
위치(세대). G4(Native Multimodal)의 대표격. LLaVA-OneVision이 오픈 진영에서 입력을 비디오·멀티이미지로 넓힌 노선이라면, Gemini는 처음부터 모든 모달리티를 함께 학습한 상용 프런티어 노선. → VLM 개요