[ZOO-Prune] Training-Free Token Pruning via Zeroth-Order Gradient Estimation in VLMs
Youngeun Kim, Youjia Zhang, Huiling Liu, Aecheon Jung, Sunwoo Lee, Sungeun Hong · Amazon / Sungkyunkwan University / Inha University
한 줄 요약. 토큰을 무엇으로 고를까? attention 기반은 층·헤드마다 불안정하고 배경에 쏠려 중복을 남기고, diversity 기반은 견고하지만 정작 답에 필요한 영역을 버릴 수 있다. ZOO-Prune은 민감도(sensitivity) 로 고른다 — 토큰에 작은 섭동을 줬을 때 모델 출력이 얼마나 바뀌는가. 민감한 토큰일수록 출력 영향이 크고 서로 보완적(비중복) 정보를 담는다. 그런데 gradient로 직접 재면 비싸고 정답 라벨이 필요하다(추론 땐 없음). 그래서 가벼운 projection layer에서 zeroth-order 섭동(가우시안 노이즈)으로 backprop 없이 민감도를 추정하고, 여기에 다양성을 곱한 점수 Score = Div × Sens로 토큰을 선택한다. training-free. 토큰을 최대 94.4% 잘라도 정확도 유지, E2E 최대 2.30× 가속.
배경
VLM은 시각 토큰이 텍스트보다 압도적으로 많아(LLaVA-1.5는 1장에 576개) 추론이 비싸다. training-free 가지치기는 크게 두 갈래인데 둘 다 약점이 있다.
- attention 기반 — attention 크기로 점수를 매기지만, attention은 층·헤드마다 불안정하고 종종 배경에 집중해 내용이 겹치는 중복 토큰을 남긴다.
- diversity 기반 — 특징 공간에서 멀리 떨어진 토큰을 고르면 견고하지만, task 관련 단서를 명시적으로 보지 않아 시각적으로 중요한(답에 필요한) 영역을 버릴 수 있다.
핵심은 “attention이 크다/특징이 다르다”가 아니라 “이 토큰이 출력에 실제로 얼마나 영향을 주는가” 다. attention 가중치는 토큰의 실제 영향과 잘 안 맞는다는 선행 연구가 이를 뒷받침한다.
문제는 영향(민감도)을 gradient로 직접 재려면 비싸고, 게다가 손실을 정의할 정답 출력이 필요한데 추론 시점엔 없다는 점이다. ZOO-Prune은 이를 인코더가 아니라 projection layer(projector) 에서 우회한다 — 아래 분석처럼 projection layer의 토큰 중요도 순위는 인코더와 상관은 있지만(0.49~0.55) 동일하지 않아, LLM을 거치지 않고도 의미 있는 신호를 준다.
핵심 아이디어
projection layer에서 각 토큰에 작은 가우시안 섭동을 주고, projected feature가 얼마나 변하는지로 gradient norm(=민감도 S)을 zeroth-order로 근사한다. 역전파도, 정답 라벨도 필요 없어 추론 시 가볍게 계산된다. 민감한 토큰 = 출력 영향이 크고 보완적 정보.
민감도만 보면 한 영역에 몰릴 수 있으니, 다양성 Div와 결합한다 — 하이브리드 점수 Score(x_i) = Div(x_i) × S(x_i). 민감도 높은 토큰을 우선하되 특징 다양성도 확보해, 중복은 줄이고 답에 필요한 영역은 지킨다.
- 학습 — 추가 학습·calibration·라벨이 필요 없는 training-free. 무거운 gradient 대신 zeroth-order 추정이라 오버헤드가 작다.
민감도가 정말 attention보다 나은가? — ablation에서 ZOO 민감도(Sens)는 텍스트-시각(T2V)·시각-시각(V2V) attention 기반보다 일관되게 우수하며, 다양성(Div)과 결합했을 때도 그 우위가 유지된다.
적용·평가
| 항목 | 내용 |
|---|---|
| 적용 모델 | LLaVA-1.5(7B) · LLaVA-NeXT(7B) · Qwen2.5-VL(7B) |
| 데이터셋 | GQA · MMBench · MME · POPE · ScienceQA · VQAv2 · TextVQA · MMMU · SEED 등 |
| Task | Image Understanding (VQA · OCR · 환각 · 종합) |
| 대표 결과 | 토큰 최대 94.4%↓ 정확도 유지 · E2E 최대 2.30× 가속 · 여러 VLM·벤치에서 SOTA |
결과
정량
- 고압축에서도 SOTA — LLaVA-1.5에서 토큰을 64개(88.9%↓)까지 줄여도 여러 attention·diversity 기반 방법을 평균에서 앞선다.
- 다른 VLM에도 일반화 — Qwen2.5-VL에서 토큰 20%·10% 유지 시 평균 96.2%·90.8%.
- 구성요소 검증(Table 4) — 민감도 단독·다양성 단독보다 둘을 곱(Multiply)으로 결합한 Score = Div×Sens가 최고. 두 신호가 보완적임을 보인다.
정성
- 무엇을 남기나(Fig 5). 질문(“꽃 위에 뭐가 걸려 있나” 등)에 대해, attention은 같은 영역 토큰을 중복 선택하고 diversity는 흩어지는 반면, ZOO-Prune은 답에 필요한 영역의 민감 토큰을 다양성과 함께 남긴다.
한 줄 정리 & 의의
- “attention/diversity 대신 민감도” — 출력에 실제 영향을 주는 토큰을 고른다. projection layer에서 zeroth-order 섭동으로 backprop·라벨 없이 민감도를 재고, 다양성과 곱해 선택(Score=Div×Sens), training-free.
- 차별점. FastV(attention)·DivPrune(다양성)의 한계를 각각 지적하며, 민감도라는 새 기준을 zeroth-order로 싸게 추정 — attention의 불안정·중복도, diversity의 중요영역 누락도 피한다.
- 위치. Bridge — 인코더와 LLM 사이의 projection layer에서 민감도를 재 LLM 입력 전에 선별. → Efficient VLM 개요