Overview
Encoder
ToMe ICLR 2023
MADTP CVPR 2024
CrossGET ICML 2024
VLTP WACV 2025
VisionZip CVPR 2025
FastVLM CVPR 2025
Bridge
LLaVA-PruMerge ICCV 2025
Recoverable Compression AAAI 2025
DivPrune CVPR 2025
CDPruner NeurIPS 2025
CoViPAL EMNLP 2025
LLM
FastV ECCV 2024
SparseVLM ICML 2025
PyramidDrop CVPR 2025
ATP-LLaVA CVPR 2025
DART EMNLP 2025
TopV CVPR 2025
Encoder+LLM
IVTP ECCV 2024

Overview
VLM
BLIP G1 ICML 2022
Flamingo G2 NeurIPS 2022
BLIP-2 G2 ICML 2023
Kosmos-1 G2 arXiv 2023
LLaVA G3 NeurIPS 2023
MiniGPT-4 G3 arXiv 2023
InstructBLIP G3 NeurIPS 2023
Qwen-VL G3 arXiv 2023
LLaVA-1.5 G3 CVPR 2024
Gemini G4 arXiv 2023
InternVL G3 CVPR 2024
LLaVA-OneVision G4 arXiv 2024
Qwen2-VL G4 arXiv 2024
InternVL 2.5 G4 arXiv 2024
DeepSeek-VL2 G4 arXiv 2024
Qwen2.5-VL G4 arXiv 2025
InternVL3 G4 arXiv 2025
InternVL3.5 G4 arXiv 2025
Qwen3-VL G4 arXiv 2025
Modality Encoder
CLIP ICML 2021
SigLIP ICCV 2023
EVA-CLIP arXiv 2023
Input Projector
P-Former NeurIPS 2023

Token Reduction in ViTs (17)

Overview
Pruning
DynamicViT NeurIPS 2021
EViT ICLR 2022
Evo-ViT AAAI 2022
ATS ECCV 2022
AS-ViT IJCAI 2023
TPS CVPR 2023
Zero-TPrune CVPR 2024
STAR ICLR 2024
Frequency-Aware TR NeurIPS 2025
Token Cropr CVPR 2025
Merging
ToMe ICLR 2023
DTEM NeurIPS 2024
MCTF CVPR 2024
Pooling
TokenLearner NeurIPS 2021
Token Pooling WACV 2023
Hybrid
DiffRate ICCV 2023
Token Fusion (ToFu) WACV 2024

[FastV] An Image is Worth 1/2 Tokens After Layer 2

ECCV 2024

2024 · llm-side · efficient-vlm

LLM ECCV 2024

Liang Chen, Haozhe Zhao, … Baobao Chang · Peking University 외

arXiv GitHub

한 줄 요약. LVLM의 깊은 LLM 층에서 시각 토큰이 받는 attention이 극히 낮다는 관찰(레이어 2 이후 시각 토큰 attention이 시스템 프롬프트의 0.21%)에서 출발. 그래서 특정 층(예: layer 2) 이후 attention 점수가 낮은 시각 토큰을 잘라낸다. self-attention뿐 아니라 FFN 연산까지 통째로 줄어 FLOPs가 크게 감소. training-free plug-and-play — LLaVA-1.5-13B에서 FLOPs 45%↓, 성능 거의 무손실(레이어 2 뒤 시각 토큰 50% 제거).

배경

LVLM은 이미지를 수백~수천 개의 시각 토큰으로 바꿔 LLM에 넣어 연산이 비싸다. FastV는 “LLM이 시각 토큰을 정말 끝까지 다 쓰는가?” 를 들여다봤다.

깊은 층의 비효율적 attention — captioning에서 레이어 2 이후 시각 토큰의 평균 attention은 시스템 프롬프트의 0.21%(초기 2개 층에선 50%).
anchor 토큰 가설 — 얕은 층에서 시각 정보가 소수의 (이미지 아닌) anchor 토큰으로 응집되고, 깊은 층의 attention은 그 anchor에 쏠려 시각 토큰 자체는 거의 안 본다.

깊은 층에서 시각 토큰이 출력에 거의 기여하지 않는다면, 그 단계에서 치워버리면 되지 않을까?

Figure 1. FastV의 효율/성능 트레이드오프. x축=이론 FLOPs 감소율, y축=평균 성능(Nocaps·Flickr30k·A-OKVQA·MMMU). 여러 모델에서 약 45% FLOPs 감소에도 성능 손실이 거의 없다.

핵심 아이디어

① 특정 층 이후 토큰 가지치기

레이어 K(예: 2)까지는 정상 계산, 그 이후엔 시각 토큰을 평균 attention 점수로 재평가해 임계값 미만을 버린다. 이후 층의 self-attention·FFN 비용이 함께 줄어든다.

② Training-free plug-and-play

추가 학습·파라미터 없이 추론 시 바로 끼운다. 효율/성능은 K와 가지치기 비율로 조절 가능(Pareto-efficient) — 13B를 7B보다 낮은 비용으로도 운용.

sparse attention과의 차이 — attention을 희소화만 하는 게 아니라 토큰을 직접 제거해 FFN 비용까지 없앤다.

적용·평가

항목	내용
적용 모델	LLaVA-1.5(7B/13B) · Qwen-VL-Chat · Video-LLaVA
이미지 데이터셋	Nocaps · Flickr30K · A-OKVQA · MMMU · OCR-VQA · PCA-Bench · MME · MMVet · SEED-Bench
비디오 데이터셋	TGIF-QA · MSVD-QA · MSRVTT-QA
Task	Captioning · VQA · 객관식 추론 · OCR · embodied 추론(PCA-Bench) · video understanding
대표 결과	LLaVA-1.5-13B FLOPs 45%↓ 무손실, layer 2 뒤 시각 토큰 50% 제거 · 13B+FastV가 7B보다 낮은 latency

결과

Table 2. 여러 모델·벤치마크 실험. LLaVA-1.5-13B에 K=2·R=50%로 FastV를 끼워도 AI2D·SciQA·SeedBench·MMVet·MME가 원모델과 대등(MMVet·MME는 오히려↑). InstructBLIP-Vicuna-13B에서도 유지.

45% FLOPs↓ 무손실 — LLaVA-1.5-13B 기준 거의 모든 지표가 원모델 수준(일부 상승). Qwen-VL-Chat·Video-LLaVA 등 여러 모델·이미지·비디오 벤치에서 약 45% 지점까지 손실 거의 없음.
13B를 7B보다 싸게 — FastV 적용 13B의 FLOPs가 7B보다 낮으면서 성능은 더 우수.

한 줄 정리 & 의의

깊은 층에서 안 보는 시각 토큰을 버리는 가장 단순·강력한 LLM-side 가지치기. attention 관찰 → 레이어 K 이후 저-attention 토큰 제거(training-free).
차별점. 인코더/브리지에서 미리 자르던 방법들과 달리 LLM 내부 깊은 층의 비효율을 직접 공략. 이후 SparseVLM·PyramidDrop 등 LLM-side 연구의 출발점.
위치. LLM — LLM 디코더 내부에서 줄인다. → Efficient VLM 개요