[ZOO-Prune] Training-Free Token Pruning via Zeroth-Order Gradient Estimation in VLMs

Bridge CVPR 2026

Youngeun Kim, Youjia Zhang, Huiling Liu, Aecheon Jung, Sunwoo Lee, Sungeun Hong · Amazon / Sungkyunkwan University / Inha University

arXiv Project

한 줄 요약. 토큰을 무엇으로 고를까? attention 기반은 층·헤드마다 불안정하고 배경에 쏠려 중복을 남기고, diversity 기반은 견고하지만 정작 답에 필요한 영역을 버릴 수 있다. ZOO-Prune은 민감도(sensitivity) 로 고른다 — 토큰에 작은 섭동을 줬을 때 모델 출력이 얼마나 바뀌는가. 민감한 토큰일수록 출력 영향이 크고 서로 보완적(비중복) 정보를 담는다. 그런데 gradient로 직접 재면 비싸고 정답 라벨이 필요하다(추론 땐 없음). 그래서 가벼운 projection layer에서 zeroth-order 섭동(가우시안 노이즈)으로 backprop 없이 민감도를 추정하고, 여기에 다양성을 곱한 점수 Score = Div × Sens로 토큰을 선택한다. training-free. 토큰을 최대 94.4% 잘라도 정확도 유지, E2E 최대 2.30× 가속.

배경

VLM은 시각 토큰이 텍스트보다 압도적으로 많아(LLaVA-1.5는 1장에 576개) 추론이 비싸다. training-free 가지치기는 크게 두 갈래인데 둘 다 약점이 있다.

  • attention 기반 — attention 크기로 점수를 매기지만, attention은 층·헤드마다 불안정하고 종종 배경에 집중해 내용이 겹치는 중복 토큰을 남긴다.
  • diversity 기반 — 특징 공간에서 멀리 떨어진 토큰을 고르면 견고하지만, task 관련 단서를 명시적으로 보지 않아 시각적으로 중요한(답에 필요한) 영역을 버릴 수 있다.
Figure 1. (a) attention 기반은 중복 토큰을 남기고, (b) diversity 기반은 예측에 필요한 토큰을 놓치며, (c) ZOO-Prune은 정보성 있고 다양한 토큰을 함께 고른다. (d) LLaVA-NeXT-7B·9개 벤치에서 VisionZip(attention)·DivPrune(diversity)을 능가.

핵심은 “attention이 크다/특징이 다르다”가 아니라 “이 토큰이 출력에 실제로 얼마나 영향을 주는가” 다. attention 가중치는 토큰의 실제 영향과 잘 안 맞는다는 선행 연구가 이를 뒷받침한다.

문제는 영향(민감도)을 gradient로 직접 재려면 비싸고, 게다가 손실을 정의할 정답 출력이 필요한데 추론 시점엔 없다는 점이다. ZOO-Prune은 이를 인코더가 아니라 projection layer(projector) 에서 우회한다 — 아래 분석처럼 projection layer의 토큰 중요도 순위는 인코더와 상관은 있지만(0.49~0.55) 동일하지 않아, LLM을 거치지 않고도 의미 있는 신호를 준다.

Figure 2. 인코더 vs projection layer의 토큰 중요도 순위 상관(KDE, Spearman) — MMMU 0.55·POPE 0.49. 둘은 상관되지만 같지 않아, projection layer가 (LLM 없이도) 보완적 중요도 신호를 제공함을 보인다.

핵심 아이디어

Figure 3. ZOO-Prune 개요. 인코더가 낸 시각 토큰을 projection layer에서 가우시안 섭동으로 흔들어 zeroth-order로 민감도 S(x_i)를 추정하고, 다양성 Div(x_i)와 곱한 하이브리드 점수 Score(x_i)=Div(x_i)·S(x_i)로 LLM에 넣을 토큰을 고른다. backprop 불필요.
① Zeroth-order 민감도 (backprop 없이)

projection layer에서 각 토큰에 작은 가우시안 섭동을 주고, projected feature가 얼마나 변하는지로 gradient norm(=민감도 S)zeroth-order로 근사한다. 역전파도, 정답 라벨도 필요 없어 추론 시 가볍게 계산된다. 민감한 토큰 = 출력 영향이 크고 보완적 정보.

② Sensitivity-aware diversity

민감도만 보면 한 영역에 몰릴 수 있으니, 다양성 Div와 결합한다 — 하이브리드 점수 Score(x_i) = Div(x_i) × S(x_i). 민감도 높은 토큰을 우선하되 특징 다양성도 확보해, 중복은 줄이고 답에 필요한 영역은 지킨다.

  • 학습 — 추가 학습·calibration·라벨이 필요 없는 training-free. 무거운 gradient 대신 zeroth-order 추정이라 오버헤드가 작다.

민감도가 정말 attention보다 나은가? — ablation에서 ZOO 민감도(Sens)는 텍스트-시각(T2V)·시각-시각(V2V) attention 기반보다 일관되게 우수하며, 다양성(Div)과 결합했을 때도 그 우위가 유지된다.

Figure 6. 민감도 vs attention 가지치기(LLaVA-NeXT-7B, F1). 160·320·640 토큰 모두에서 Sens(민감도)가 T2V·V2V attention을 앞서며, Div와 결합해도 우위 유지.

적용·평가

항목 내용
적용 모델 LLaVA-1.5(7B) · LLaVA-NeXT(7B) · Qwen2.5-VL(7B)
데이터셋 GQA · MMBench · MME · POPE · ScienceQA · VQAv2 · TextVQA · MMMU · SEED 등
Task Image Understanding (VQA · OCR · 환각 · 종합)
대표 결과 토큰 최대 94.4%↓ 정확도 유지 · E2E 최대 2.30× 가속 · 여러 VLM·벤치에서 SOTA

결과

정량

Table 1. LLaVA-1.5-7B 비교(576 → 192·64 유지 = 66.7%·88.9% 가지치기). ZOO-Prune이 ToMe·FastV·HiRED·VisionZip·DivPrune·PyramidDrop·SparseVLM 대비 평균 최고.
  • 고압축에서도 SOTA — LLaVA-1.5에서 토큰을 64개(88.9%↓)까지 줄여도 여러 attention·diversity 기반 방법을 평균에서 앞선다.
Table 2. Qwen2.5-VL-7B. 토큰 20%·10%만 유지해도 평균 96.2%·90.8%로 VisionZip·DivPrune을 능가 — 다른 VLM에도 일반화.
  • 다른 VLM에도 일반화 — Qwen2.5-VL에서 토큰 20%·10% 유지 시 평균 96.2%·90.8%.
Table 3. LLaVA-NeXT-7B 비교(320·128·64 유지). Table 4. 선택 지표 ablation — Sensitivity·Diversity를 각각/결합(Sum vs Multiply)했을 때, 민감도×다양성(곱)이 가장 좋다.
  • 구성요소 검증(Table 4) — 민감도 단독·다양성 단독보다 둘을 곱(Multiply)으로 결합한 Score = Div×Sens가 최고. 두 신호가 보완적임을 보인다.

정성

Figure 5. GQA 정성 비교. attention 기반(T2V·V2V)은 중복 토큰 클러스터를 남기고, diversity는 넓게 퍼지지만 의미 집중이 약하다. ZOO-Prune은 민감도+다양성으로 압축률 전반에서 균형 잡힌 토큰을 남긴다.
  • 무엇을 남기나(Fig 5). 질문(“꽃 위에 뭐가 걸려 있나” 등)에 대해, attention은 같은 영역 토큰을 중복 선택하고 diversity는 흩어지는 반면, ZOO-Prune은 답에 필요한 영역의 민감 토큰을 다양성과 함께 남긴다.

한 줄 정리 & 의의

  • “attention/diversity 대신 민감도” — 출력에 실제 영향을 주는 토큰을 고른다. projection layer에서 zeroth-order 섭동으로 backprop·라벨 없이 민감도를 재고, 다양성과 곱해 선택(Score=Div×Sens), training-free.
  • 차별점. FastV(attention)·DivPrune(다양성)의 한계를 각각 지적하며, 민감도라는 새 기준을 zeroth-order로 싸게 추정 — attention의 불안정·중복도, diversity의 중요영역 누락도 피한다.
  • 위치. Bridge — 인코더와 LLM 사이의 projection layer에서 민감도를 재 LLM 입력 전에 선별. → Efficient VLM 개요