Overview
Encoder
ToMe ICLR 2023
MADTP CVPR 2024
CrossGET ICML 2024
VLTP WACV 2025
VisionZip CVPR 2025
FastVLM CVPR 2025
Bridge
LLaVA-PruMerge ICCV 2025
Recoverable Compression AAAI 2025
G-Prune AAAI 2025
DivPrune CVPR 2025
CDPruner NeurIPS 2025
CoViPAL EMNLP 2025
ZOO-Prune CVPR 2026
LLM
FastV ECCV 2024
SparseVLM ICML 2025
PyramidDrop CVPR 2025
ATP-LLaVA CVPR 2025
DART EMNLP 2025
TopV CVPR 2025
VLM-Pruner CVPR 2026
Encoder+LLM
IVTP ECCV 2024

Overview
VLM
BLIP G1 ICML 2022
Flamingo G2 NeurIPS 2022
BLIP-2 G2 ICML 2023
Kosmos-1 G2 arXiv 2023
LLaVA G3 NeurIPS 2023
MiniGPT-4 G3 arXiv 2023
InstructBLIP G3 NeurIPS 2023
Qwen-VL G3 arXiv 2023
LLaVA-1.5 G3 CVPR 2024
Gemini G4 arXiv 2023
InternVL G3 CVPR 2024
LLaVA-OneVision G4 arXiv 2024
Qwen2-VL G4 arXiv 2024
InternVL 2.5 G4 arXiv 2024
DeepSeek-VL2 G4 arXiv 2024
Qwen2.5-VL G4 arXiv 2025
InternVL3 G4 arXiv 2025
InternVL3.5 G4 arXiv 2025
Qwen3-VL G4 arXiv 2025
Modality Encoder
CLIP ICML 2021
SigLIP ICCV 2023
EVA-CLIP arXiv 2023
Input Projector
P-Former NeurIPS 2023

Overview
Pruning
DynamicViT NeurIPS 2021
EViT ICLR 2022
Evo-ViT AAAI 2022
ATS ECCV 2022
AS-ViT IJCAI 2023
TPS CVPR 2023
Zero-TPrune CVPR 2024
STAR ICLR 2024
Frequency-Aware TR NeurIPS 2025
Token Cropr CVPR 2025
Merging
ToMe ICLR 2023
DTEM NeurIPS 2024
MCTF CVPR 2024
Pooling
TokenLearner NeurIPS 2021
Token Pooling WACV 2023
Hybrid
DiffRate ICCV 2023
Token Fusion (ToFu) WACV 2024

[ZOO-Prune] Training-Free Token Pruning via Zeroth-Order Gradient Estimation in VLMs

CVPR 2026

2025 · bridge · efficient-vlm

Bridge CVPR 2026

Youngeun Kim, Youjia Zhang, Huiling Liu, Aecheon Jung, Sunwoo Lee, Sungeun Hong · Amazon / Sungkyunkwan University / Inha University

arXiv Project

한 줄 요약. 토큰을 무엇으로 고를까? attention 기반은 층·헤드마다 불안정하고 배경에 쏠려 중복을 남기고, diversity 기반은 견고하지만 정작 답에 필요한 영역을 버릴 수 있다. ZOO-Prune은 민감도(sensitivity) 로 고른다 — 토큰에 작은 섭동을 줬을 때 모델 출력이 얼마나 바뀌는가. 민감한 토큰일수록 출력 영향이 크고 서로 보완적(비중복) 정보를 담는다. 그런데 gradient로 직접 재면 비싸고 정답 라벨이 필요하다(추론 땐 없음). 그래서 가벼운 projection layer에서 zeroth-order 섭동(가우시안 노이즈)으로 backprop 없이 민감도를 추정하고, 여기에 다양성을 곱한 점수 Score = Div × Sens로 토큰을 선택한다. training-free. 토큰을 최대 94.4% 잘라도 정확도 유지, E2E 최대 2.30× 가속.

배경

VLM은 시각 토큰이 텍스트보다 압도적으로 많아(LLaVA-1.5는 1장에 576개) 추론이 비싸다. training-free 가지치기는 크게 두 갈래인데 둘 다 약점이 있다.

attention 기반 — attention 크기로 점수를 매기지만, attention은 층·헤드마다 불안정하고 종종 배경에 집중해 내용이 겹치는 중복 토큰을 남긴다.
diversity 기반 — 특징 공간에서 멀리 떨어진 토큰을 고르면 견고하지만, task 관련 단서를 명시적으로 보지 않아 시각적으로 중요한(답에 필요한) 영역을 버릴 수 있다.

Figure 1. (a) attention 기반은 중복 토큰을 남기고, (b) diversity 기반은 예측에 필요한 토큰을 놓치며, (c) ZOO-Prune은 정보성 있고 다양한 토큰을 함께 고른다. (d) LLaVA-NeXT-7B·9개 벤치에서 VisionZip(attention)·DivPrune(diversity)을 능가.

핵심은 “attention이 크다/특징이 다르다”가 아니라 “이 토큰이 출력에 실제로 얼마나 영향을 주는가” 다. attention 가중치는 토큰의 실제 영향과 잘 안 맞는다는 선행 연구가 이를 뒷받침한다.

문제는 영향(민감도)을 gradient로 직접 재려면 비싸고, 게다가 손실을 정의할 정답 출력이 필요한데 추론 시점엔 없다는 점이다. ZOO-Prune은 이를 인코더가 아니라 projection layer(projector) 에서 우회한다 — 아래 분석처럼 projection layer의 토큰 중요도 순위는 인코더와 상관은 있지만(0.49~0.55) 동일하지 않아, LLM을 거치지 않고도 의미 있는 신호를 준다.

Figure 2. 인코더 vs projection layer의 토큰 중요도 순위 상관(KDE, Spearman) — MMMU 0.55·POPE 0.49. 둘은 상관되지만 같지 않아, projection layer가 (LLM 없이도) 보완적 중요도 신호를 제공함을 보인다.

핵심 아이디어

Figure 3. ZOO-Prune 개요. 인코더가 낸 시각 토큰을 projection layer에서 가우시안 섭동으로 흔들어 zeroth-order로 민감도 S(x_i)를 추정하고, 다양성 Div(x_i)와 곱한 하이브리드 점수 Score(x_i)=Div(x_i)·S(x_i)로 LLM에 넣을 토큰을 고른다. backprop 불필요.

① Zeroth-order 민감도 (backprop 없이)

projection layer에서 각 토큰에 작은 가우시안 섭동을 주고, projected feature가 얼마나 변하는지로 gradient norm(=민감도 S)을 zeroth-order로 근사한다. 역전파도, 정답 라벨도 필요 없어 추론 시 가볍게 계산된다. 민감한 토큰 = 출력 영향이 크고 보완적 정보.

② Sensitivity-aware diversity

민감도만 보면 한 영역에 몰릴 수 있으니, 다양성 Div와 결합한다 — 하이브리드 점수 Score(x_i) = Div(x_i) × S(x_i). 민감도 높은 토큰을 우선하되 특징 다양성도 확보해, 중복은 줄이고 답에 필요한 영역은 지킨다.

학습 — 추가 학습·calibration·라벨이 필요 없는 training-free. 무거운 gradient 대신 zeroth-order 추정이라 오버헤드가 작다.

민감도가 정말 attention보다 나은가? — ablation에서 ZOO 민감도(Sens)는 텍스트-시각(T2V)·시각-시각(V2V) attention 기반보다 일관되게 우수하며, 다양성(Div)과 결합했을 때도 그 우위가 유지된다.

Figure 6. 민감도 vs attention 가지치기(LLaVA-NeXT-7B, F1). 160·320·640 토큰 모두에서 Sens(민감도)가 T2V·V2V attention을 앞서며, Div와 결합해도 우위 유지.

적용·평가

항목	내용
적용 모델	LLaVA-1.5(7B) · LLaVA-NeXT(7B) · Qwen2.5-VL(7B)
데이터셋	GQA · MMBench · MME · POPE · ScienceQA · VQAv2 · TextVQA · MMMU · SEED 등
Task	Image Understanding (VQA · OCR · 환각 · 종합)
대표 결과	토큰 최대 94.4%↓ 정확도 유지 · E2E 최대 2.30× 가속 · 여러 VLM·벤치에서 SOTA

결과

정량

Table 1. LLaVA-1.5-7B 비교(576 → 192·64 유지 = 66.7%·88.9% 가지치기). ZOO-Prune이 ToMe·FastV·HiRED·VisionZip·DivPrune·PyramidDrop·SparseVLM 대비 평균 최고.

고압축에서도 SOTA — LLaVA-1.5에서 토큰을 64개(88.9%↓)까지 줄여도 여러 attention·diversity 기반 방법을 평균에서 앞선다.

Table 2. Qwen2.5-VL-7B. 토큰 20%·10%만 유지해도 평균 96.2%·90.8%로 VisionZip·DivPrune을 능가 — 다른 VLM에도 일반화.

다른 VLM에도 일반화 — Qwen2.5-VL에서 토큰 20%·10% 유지 시 평균 96.2%·90.8%.

Table 3. LLaVA-NeXT-7B 비교(320·128·64 유지). Table 4. 선택 지표 ablation — Sensitivity·Diversity를 각각/결합(Sum vs Multiply)했을 때, 민감도×다양성(곱)이 가장 좋다.

구성요소 검증(Table 4) — 민감도 단독·다양성 단독보다 둘을 곱(Multiply)으로 결합한 Score = Div×Sens가 최고. 두 신호가 보완적임을 보인다.

정성

무엇을 남기나(Fig 5). 질문(“꽃 위에 뭐가 걸려 있나” 등)에 대해, attention은 같은 영역 토큰을 중복 선택하고 diversity는 흩어지는 반면, ZOO-Prune은 답에 필요한 영역의 민감 토큰을 다양성과 함께 남긴다.

한 줄 정리 & 의의

“attention/diversity 대신 민감도” — 출력에 실제 영향을 주는 토큰을 고른다. projection layer에서 zeroth-order 섭동으로 backprop·라벨 없이 민감도를 재고, 다양성과 곱해 선택(Score=Div×Sens), training-free.
차별점. FastV(attention)·DivPrune(다양성)의 한계를 각각 지적하며, 민감도라는 새 기준을 zeroth-order로 싸게 추정 — attention의 불안정·중복도, diversity의 중요영역 누락도 피한다.
위치. Bridge — 인코더와 LLM 사이의 projection layer에서 민감도를 재 LLM 입력 전에 선별. → Efficient VLM 개요