[VLM-Pruner] Buffering for Spatial Sparsity in a Centrifugal Token Pruning Paradigm

LLM CVPR 2026

Zhenkai Wu, Xiaowen Ma, Zhenliang Ni, … Xinghao Chen · Zhejiang University / Huawei

arXiv GitHub

한 줄 요약. 중요도만 보는 가지치기는 토큰 간 중복을 놓쳐 비슷한 토큰을 잔뜩 남기고, 중복(다양성)을 보는 방법은 공간 관계를 무시해 남은 토큰이 여기저기 흩어져 정작 객체 영역을 못 덮는다. VLM-Pruner는 둘을 함께 — 중복과 공간 희소성을 균형잡는 "centrifugal(원심)" 근→원(near-to-far) 선택. ① pivot 토큰(max-min 거리로 서로 다른 주제를 거칠게 대표)에서 시작해 ② BSS(Buffering for Spatial Sparsity) 기준으로 공간적으로 가까운 저중복 토큰부터 차례로 고르고(먼 토큰은 뒤로 미룸) ③ 버린 토큰은 SWA(Similarity-Weighted Aggregation)로 남은 토큰에 합쳐 회복한다. LLM 디코더 2층에서 동작, training-free. 5개 VLM에서 88.9% 가지치기에도 baseline 능가, 최대 1.6× 가속·FLOPs 최대 77.91%↓.

배경

VLM은 시각 토큰이 많아 모바일 배포가 어렵다. 가지치기로 줄이는데, 기존 두 갈래 모두 약점이 있다.

  • 중요도만 보면(예: FastV) — 토큰 간 중복(inter-token redundancy) 을 무시해, 내용이 겹치는 토큰을 여러 개 남겨 용량을 낭비한다.
  • 중복(다양성)을 봐도(예: DivPrune·DART) — 토큰의 공간 관계를 고려하지 않아, 남은 토큰이 이미지 전역에 흩어진다(scattered). 결과적으로 객체 영역을 충분히 덮지 못해 세밀한 디테일을 놓친다.
Figure 1. 5개 VLM(Qwen2-VL-7B·LLaVA-1.5-7B/13B·LLaVA-Next-7B·LLaVA-Video-7B-Qwen2)에서 가지치기율(66.7/77.8/88.9%) 대비 성능. 중요도 기반 FastV·중복 기반 DART·DivPrune을 모두 능가.

그럼 “중복도 줄이고, 공간적으로도 객체를 빠짐없이 덮게” 토큰을 순서 있게 고를 수 없을까? — 무작위로 흩뿌리지 말고 가까운 곳에서 먼 곳으로.

핵심 아이디어 — Centrifugal 3단계

Figure 3. VLM-Pruner의 원심(centrifugal) 가지치기. (a) LLM 디코더 i층에서 근→원 순서로, (b) pivot 토큰에서 시작 → (c) 이웃으로 확장(BSS 기준: 공간적으로 가까운 후보 우선, 초록→빨강은 선택확률 감소) → (d) 버린 토큰을 SWA로 회복. BSS 적용 후 가까운 C2가 C1보다 우선된다.
① Pivot 초기화

max-min 거리로 서로 최대한 떨어진 최소 pivot 토큰 집합을 먼저 잡아, 이미지 속 서로 다른 주제를 거칠게 대표한다(선택의 출발점).

② BSS 기준 greedy 선택

Buffering for Spatial Sparsity — 후보와 선택집합의 최소 공간 거리를 반영해, 공간적으로 가까운 저중복 토큰을 우선 선택하고 먼 토큰은 뒤로 미룬다. 유사도 오름차순으로 병렬 greedy 처리(가속).

③ SWA 회복

끝까지 버려진 바깥쪽 토큰을 최대 유사도 기준으로 남은 토큰에 매칭, Similarity-Weighted Aggregation으로 합쳐 정보 손실을 줄인다.

  • 왜 근→원인가 — 공간 근접을 우선하면 흩어짐을 막고 객체의 세밀한 디테일을 더 완전하게 재구성한다(near-to-far = locality부터 바깥으로).
  • 학습 — 추가 학습 없는 training-free. LLM 디코더 2층에서 한 번 수행.

적용·평가

항목 내용
적용 모델 5개 VLM — LLaVA-1.5(7B/13B) · LLaVA-Next-7B · LLaVA-Video-7B-Qwen2 · Qwen2-VL-7B
데이터셋 GQA · MMBench · MME · POPE · ScienceQA · TextVQA · OCRBench · SEED · OK-VQA
Task Image Understanding (VQA · OCR · 환각 · 종합)
대표 결과 88.9% 가지치기에서 5개 VLM 모두 baseline 능가 · 최대 1.6× 가속 · FLOPs 최대 77.91%↓

결과

정량

Table 1·2. LLaVA-1.5-7B(192/128/64 유지)·LLaVA-1.5-13B·LLaVA-Next-7B 비교. VLM-Pruner(Ours)가 FastV·SparseVLM·PDrop·DART·DivPrune 대비 평균 최고, 특히 고압축(88.9%↓)·OCR에서 우위.
  • 고압축·디테일 task에 강함 — 토큰 64개(88.9%↓)에서도 평균 최고. 공간 근접 우선 덕에 OCRBench·세밀한 VQA에서 흩어지는 방법(DART·DivPrune)보다 객체 영역을 잘 덮는다.

정성

Figure 2. 실제 가지치기 결과 비교(FastV·DART·VLM-Pruner). 초록=정답·빨강=오답 응답. VLM-Pruner는 트럭의 차체·타이어·앞유리처럼 객체 디테일을 빠짐없이 덮어 정답을 낸다.
  • 객체를 빠짐없이 덮는다(Fig 2). FastV·DART가 흩어진 토큰으로 디테일을 놓쳐 틀리는 사례에서, VLM-Pruner는 객체 주변을 조밀하게 남겨(예: 트럭의 차체·타이어·앞유리) 정확히 답한다.

한 줄 정리 & 의의

  • “중복 + 공간 희소성”을 함께 — 근→원(centrifugal) 순서로 고른다. pivot에서 시작해 BSS로 가까운 토큰부터 선택, 버린 건 SWA로 회복 → 흩어짐 없이 객체 디테일 보존, training-free.
  • 차별점. 중요도 기반 FastV·중복(다양성) 기반 DART·DivPrune공간 관계를 무시해 토큰이 흩어지는 문제를, 공간 근접 우선으로 푼다.
  • 위치. LLM — LLM 디코더 2층에서 줄인다. → Efficient VLM 개요