[VLM-Pruner] Buffering for Spatial Sparsity in a Centrifugal Token Pruning Paradigm
Zhenkai Wu, Xiaowen Ma, Zhenliang Ni, … Xinghao Chen · Zhejiang University / Huawei
한 줄 요약. 중요도만 보는 가지치기는 토큰 간 중복을 놓쳐 비슷한 토큰을 잔뜩 남기고, 중복(다양성)을 보는 방법은 공간 관계를 무시해 남은 토큰이 여기저기 흩어져 정작 객체 영역을 못 덮는다. VLM-Pruner는 둘을 함께 — 중복과 공간 희소성을 균형잡는 "centrifugal(원심)" 근→원(near-to-far) 선택. ① pivot 토큰(max-min 거리로 서로 다른 주제를 거칠게 대표)에서 시작해 ② BSS(Buffering for Spatial Sparsity) 기준으로 공간적으로 가까운 저중복 토큰부터 차례로 고르고(먼 토큰은 뒤로 미룸) ③ 버린 토큰은 SWA(Similarity-Weighted Aggregation)로 남은 토큰에 합쳐 회복한다. LLM 디코더 2층에서 동작, training-free. 5개 VLM에서 88.9% 가지치기에도 baseline 능가, 최대 1.6× 가속·FLOPs 최대 77.91%↓.
배경
VLM은 시각 토큰이 많아 모바일 배포가 어렵다. 가지치기로 줄이는데, 기존 두 갈래 모두 약점이 있다.
- 중요도만 보면(예: FastV) — 토큰 간 중복(inter-token redundancy) 을 무시해, 내용이 겹치는 토큰을 여러 개 남겨 용량을 낭비한다.
- 중복(다양성)을 봐도(예: DivPrune·DART) — 토큰의 공간 관계를 고려하지 않아, 남은 토큰이 이미지 전역에 흩어진다(scattered). 결과적으로 객체 영역을 충분히 덮지 못해 세밀한 디테일을 놓친다.
그럼 “중복도 줄이고, 공간적으로도 객체를 빠짐없이 덮게” 토큰을 순서 있게 고를 수 없을까? — 무작위로 흩뿌리지 말고 가까운 곳에서 먼 곳으로.
핵심 아이디어 — Centrifugal 3단계
max-min 거리로 서로 최대한 떨어진 최소 pivot 토큰 집합을 먼저 잡아, 이미지 속 서로 다른 주제를 거칠게 대표한다(선택의 출발점).
Buffering for Spatial Sparsity — 후보와 선택집합의 최소 공간 거리를 반영해, 공간적으로 가까운 저중복 토큰을 우선 선택하고 먼 토큰은 뒤로 미룬다. 유사도 오름차순으로 병렬 greedy 처리(가속).
끝까지 버려진 바깥쪽 토큰을 최대 유사도 기준으로 남은 토큰에 매칭, Similarity-Weighted Aggregation으로 합쳐 정보 손실을 줄인다.
- 왜 근→원인가 — 공간 근접을 우선하면 흩어짐을 막고 객체의 세밀한 디테일을 더 완전하게 재구성한다(near-to-far = locality부터 바깥으로).
- 학습 — 추가 학습 없는 training-free. LLM 디코더 2층에서 한 번 수행.
적용·평가
| 항목 | 내용 |
|---|---|
| 적용 모델 | 5개 VLM — LLaVA-1.5(7B/13B) · LLaVA-Next-7B · LLaVA-Video-7B-Qwen2 · Qwen2-VL-7B |
| 데이터셋 | GQA · MMBench · MME · POPE · ScienceQA · TextVQA · OCRBench · SEED · OK-VQA |
| Task | Image Understanding (VQA · OCR · 환각 · 종합) |
| 대표 결과 | 88.9% 가지치기에서 5개 VLM 모두 baseline 능가 · 최대 1.6× 가속 · FLOPs 최대 77.91%↓ |
결과
정량
- 고압축·디테일 task에 강함 — 토큰 64개(88.9%↓)에서도 평균 최고. 공간 근접 우선 덕에 OCRBench·세밀한 VQA에서 흩어지는 방법(DART·DivPrune)보다 객체 영역을 잘 덮는다.
정성
- 객체를 빠짐없이 덮는다(Fig 2). FastV·DART가 흩어진 토큰으로 디테일을 놓쳐 틀리는 사례에서, VLM-Pruner는 객체 주변을 조밀하게 남겨(예: 트럭의 차체·타이어·앞유리) 정확히 답한다.
한 줄 정리 & 의의
- “중복 + 공간 희소성”을 함께 — 근→원(centrifugal) 순서로 고른다. pivot에서 시작해 BSS로 가까운 토큰부터 선택, 버린 건 SWA로 회복 → 흩어짐 없이 객체 디테일 보존, training-free.
- 차별점. 중요도 기반 FastV·중복(다양성) 기반 DART·DivPrune이 공간 관계를 무시해 토큰이 흩어지는 문제를, 공간 근접 우선으로 푼다.
- 위치. LLM — LLM 디코더 2층에서 줄인다. → Efficient VLM 개요