Efficient VLM — Overview

Survey

한 줄 요약. VLM은 시각 토큰이 텍스트보다 훨씬 많아(예: LLaVA 한 장에 576개) LLM 입력이 길어지고 연산이 토큰 수의 제곱으로 폭증한다. Efficient VLM은 이 시각 토큰을 줄여(선택·압축·복구) latency·메모리·FLOPs를 낮추는 방법들이다. 핵심은 두 가지 — ① 줄이는 위치(시각 인코더 / 브리지(projector) / LLM 내부) 가 다 다르고, ② 순수 시각만 보던 [ViT의 토큰 축소](/blog/2026/token-reduction-overview/)와 달리 대부분 텍스트(질문)를 가이드로 어떤 토큰이 답에 필요한지 본다.

왜 Efficient VLM인가

VLM은 이미지를 수백 개의 시각 토큰으로 바꿔 LLM에 넣는다. 그런데 LLM의 self-attention은 입력 길이에 제곱으로 비싸지므로, 긴 시각 토큰 시퀀스가 곧 비용이다.

LLM 단계 비용이 지배적 — ViT 토큰 축소가 비전 인코더 안의 비용을 줄였다면, VLM에선 LLM에 들어가는 시각 토큰 수가 전체 latency·메모리를 좌우한다.
순수 시각만 보면 위험 — 대형 멀티모달 모델에서 시각 정보에만 의존해 토큰을 자르면 질문에 필요한 정보를 잃는다(oversimplification). 그래서 질문 텍스트가 “어떤 시각 토큰이 중요한지”를 알려주는 단서가 된다.

즉 Efficient VLM = “질문을 고려해, 답에 필요 없는 시각 토큰을 어느 단계에서 얼마나 줄일까” 의 문제다.

어디서 줄이나 (위치별 분류)

VLM 파이프라인(Input → Visual Encoder → Bridge/Projector → LLM → Output)에서 시각 토큰을 줄일 수 있는 지점. encoder-side · bridge-side · LLM-side(주로 text-guided)로 나뉜다. 효과는 latency·memory·FLOPs·throughput. (직접 정리)

① Encoder-side

시각 인코더 안에서 토큰을 미리 줄인다. 인코더 연산도 같이 절감.

VLTP · IVTP(1단계) · MADTP · CrossGET

② Bridge / Pre-LLM

인코더와 LLM 사이(projector 부근)에서 추려서 LLM에 넣는다. LLM 비용을 직접 줄임.

Recoverable Compression · CoViPAL

③ LLM-side

LLM 내부 attention 계산 중에 시각 토큰을 솎아낸다. 대개 text-guided.

FastV · SparseVLM

한 방법이 여러 지점에 걸치기도 한다 — 예: IVTP는 시각 인코더와 LLM 양쪽에서 2-stage로 자르고, Recoverable Compression은 pre-LLM에서 자르되 질문 텍스트로 복구한다.

방법 한눈에

Method	Venue	위치	학습	적용 모델	Task
MADTP	CVPR 2024	Vision·Language 인코더 (layer 내부·브랜치 사이)	Fine-tuning (MAG+DTP)	BLIP, CLIP	Retrieval·VQA·Captioning
CrossGET	ICML 2024	Vision·Language 인코더 (layer 내부)	Fine-tuning (cross token만)	CLIP·BLIP·BLIP-2·LLaVA	Retrieval·Reasoning·VQA
VLTP	WACV 2025	Vision 인코더 (encoder-side)	—	task-oriented seg 모델	Task-Oriented Segmentation
IVTP	WACV 2025	Vision 인코더 & LLM (2-stage)	Training-free	LLaVA-1.5	Image Understanding (12종)
SparseVLM	ICML 2025	LLM Decoder (내부 attention)	Training-free	LLaVA·Mini-Gemini·Qwen2-VL·Video-LLaVA	Image·Video (12종)
Recoverable Compression	AAAI 2025	Pre-LLM (Encoder–Projector 사이)	Training-free	LLaVA-1.5	Image Understanding
CoViPAL	EMNLP 2025	Pre-LLM (Encoder–LLM 사이)	Training-based (PPM 분류기)	LLaVA-OneVision·LLaVA-Video	Image·Video (13종)

공통 아이디어 & 흐름

텍스트(질문) 가이드

질문과 관련된 시각 토큰을 우선 남긴다. cross-attention으로 질문 토큰과 시각 토큰의 관련성을 재는 식(SparseVLM·Recoverable Compression).

적응적 축소 (중복도 기반)

이미지마다 정보 밀도가 달라, attention의 rank 등으로 중복을 추정해 이미지별로 다른 비율로 자른다(SparseVLM).

복구·재활용 (recover / recycle)

버린 토큰을 그냥 두지 않고 클러스터링해 합치거나 텍스트 단서로 되살린다 — 정보 손실 최소화(Recoverable Compression·SparseVLM).

training-free plug-and-play

추가 학습·파라미터 없이 추론 시 바로 끼우는 모듈이 늘어나는 추세(IVTP·SparseVLM·Recoverable Compression). 배포가 쉽다.

벤치마크

평가는 대부분 image/video understanding 벤치마크로 한다 — MME·POPE·GQA·TextVQA·MMBench·SEED·ScienceQA 등. 각 벤치마크가 무엇을 보는지는 VLM Overview의 주요 벤치마크에 정리해 두었다. 핵심 비교 지표는 압축률(유지 토큰 수) 대비 정확도 유지 + latency.

위치 & 다음

연결. Efficient VLM은 Token Reduction in ViTs를 멀티모달·텍스트 가이드로 확장한 것이고, 그 무대인 VLM의 어느 단계(encoder/bridge/LLM)에서나 일어날 수 있다.
다음. 개별 논문 노트는 자료가 충분한 SparseVLM·Recoverable Compression부터 정리할 예정. (작성되는 대로 위 표에서 링크 연결)