Overview
Encoder
ToMe ICLR 2023
MADTP CVPR 2024
CrossGET ICML 2024
VLTP WACV 2025
VisionZip CVPR 2025
FastVLM CVPR 2025
Bridge
LLaVA-PruMerge ICCV 2025
Recoverable Compression AAAI 2025
G-Prune AAAI 2025
DivPrune CVPR 2025
CDPruner NeurIPS 2025
CoViPAL EMNLP 2025
ZOO-Prune CVPR 2026
LLM
FastV ECCV 2024
SparseVLM ICML 2025
PyramidDrop CVPR 2025
ATP-LLaVA CVPR 2025
DART EMNLP 2025
TopV CVPR 2025
VLM-Pruner CVPR 2026
Encoder+LLM
IVTP ECCV 2024

Overview
VLM
BLIP G1 ICML 2022
Flamingo G2 NeurIPS 2022
BLIP-2 G2 ICML 2023
Kosmos-1 G2 arXiv 2023
LLaVA G3 NeurIPS 2023
MiniGPT-4 G3 arXiv 2023
InstructBLIP G3 NeurIPS 2023
Qwen-VL G3 arXiv 2023
LLaVA-1.5 G3 CVPR 2024
Gemini G4 arXiv 2023
InternVL G3 CVPR 2024
LLaVA-OneVision G4 arXiv 2024
Qwen2-VL G4 arXiv 2024
InternVL 2.5 G4 arXiv 2024
DeepSeek-VL2 G4 arXiv 2024
Qwen2.5-VL G4 arXiv 2025
InternVL3 G4 arXiv 2025
InternVL3.5 G4 arXiv 2025
Qwen3-VL G4 arXiv 2025
Modality Encoder
CLIP ICML 2021
SigLIP ICCV 2023
EVA-CLIP arXiv 2023
Input Projector
P-Former NeurIPS 2023

Token Reduction in ViTs (17)

Overview
Pruning
DynamicViT NeurIPS 2021
EViT ICLR 2022
Evo-ViT AAAI 2022
ATS ECCV 2022
AS-ViT IJCAI 2023
TPS CVPR 2023
Zero-TPrune CVPR 2024
STAR ICLR 2024
Frequency-Aware TR NeurIPS 2025
Token Cropr CVPR 2025
Merging
ToMe ICLR 2023
DTEM NeurIPS 2024
MCTF CVPR 2024
Pooling
TokenLearner NeurIPS 2021
Token Pooling WACV 2023
Hybrid
DiffRate ICCV 2023
Token Fusion (ToFu) WACV 2024

[VLM-Pruner] Buffering for Spatial Sparsity in a Centrifugal Token Pruning Paradigm

CVPR 2026

2025 · llm-side · efficient-vlm

LLM CVPR 2026

Zhenkai Wu, Xiaowen Ma, Zhenliang Ni, … Xinghao Chen · Zhejiang University / Huawei

arXiv GitHub

한 줄 요약. 중요도만 보는 가지치기는 토큰 간 중복을 놓쳐 비슷한 토큰을 잔뜩 남기고, 중복(다양성)을 보는 방법은 공간 관계를 무시해 남은 토큰이 여기저기 흩어져 정작 객체 영역을 못 덮는다. VLM-Pruner는 둘을 함께 — 중복과 공간 희소성을 균형잡는 "centrifugal(원심)" 근→원(near-to-far) 선택. ① pivot 토큰(max-min 거리로 서로 다른 주제를 거칠게 대표)에서 시작해 ② BSS(Buffering for Spatial Sparsity) 기준으로 공간적으로 가까운 저중복 토큰부터 차례로 고르고(먼 토큰은 뒤로 미룸) ③ 버린 토큰은 SWA(Similarity-Weighted Aggregation)로 남은 토큰에 합쳐 회복한다. LLM 디코더 2층에서 동작, training-free. 5개 VLM에서 88.9% 가지치기에도 baseline 능가, 최대 1.6× 가속·FLOPs 최대 77.91%↓.

배경

VLM은 시각 토큰이 많아 모바일 배포가 어렵다. 가지치기로 줄이는데, 기존 두 갈래 모두 약점이 있다.

중요도만 보면(예: FastV) — 토큰 간 중복(inter-token redundancy) 을 무시해, 내용이 겹치는 토큰을 여러 개 남겨 용량을 낭비한다.
중복(다양성)을 봐도(예: DivPrune·DART) — 토큰의 공간 관계를 고려하지 않아, 남은 토큰이 이미지 전역에 흩어진다(scattered). 결과적으로 객체 영역을 충분히 덮지 못해 세밀한 디테일을 놓친다.

Figure 1. 5개 VLM(Qwen2-VL-7B·LLaVA-1.5-7B/13B·LLaVA-Next-7B·LLaVA-Video-7B-Qwen2)에서 가지치기율(66.7/77.8/88.9%) 대비 성능. 중요도 기반 FastV·중복 기반 DART·DivPrune을 모두 능가.

그럼 “중복도 줄이고, 공간적으로도 객체를 빠짐없이 덮게” 토큰을 순서 있게 고를 수 없을까? — 무작위로 흩뿌리지 말고 가까운 곳에서 먼 곳으로.

핵심 아이디어 — Centrifugal 3단계

Figure 3. VLM-Pruner의 원심(centrifugal) 가지치기. (a) LLM 디코더 i층에서 근→원 순서로, (b) pivot 토큰에서 시작 → (c) 이웃으로 확장(BSS 기준: 공간적으로 가까운 후보 우선, 초록→빨강은 선택확률 감소) → (d) 버린 토큰을 SWA로 회복. BSS 적용 후 가까운 C2가 C1보다 우선된다.

① Pivot 초기화

max-min 거리로 서로 최대한 떨어진 최소 pivot 토큰 집합을 먼저 잡아, 이미지 속 서로 다른 주제를 거칠게 대표한다(선택의 출발점).

② BSS 기준 greedy 선택

Buffering for Spatial Sparsity — 후보와 선택집합의 최소 공간 거리를 반영해, 공간적으로 가까운 저중복 토큰을 우선 선택하고 먼 토큰은 뒤로 미룬다. 유사도 오름차순으로 병렬 greedy 처리(가속).

③ SWA 회복

끝까지 버려진 바깥쪽 토큰을 최대 유사도 기준으로 남은 토큰에 매칭, Similarity-Weighted Aggregation으로 합쳐 정보 손실을 줄인다.

왜 근→원인가 — 공간 근접을 우선하면 흩어짐을 막고 객체의 세밀한 디테일을 더 완전하게 재구성한다(near-to-far = locality부터 바깥으로).
학습 — 추가 학습 없는 training-free. LLM 디코더 2층에서 한 번 수행.

적용·평가

항목	내용
적용 모델	5개 VLM — LLaVA-1.5(7B/13B) · LLaVA-Next-7B · LLaVA-Video-7B-Qwen2 · Qwen2-VL-7B
데이터셋	GQA · MMBench · MME · POPE · ScienceQA · TextVQA · OCRBench · SEED · OK-VQA
Task	Image Understanding (VQA · OCR · 환각 · 종합)
대표 결과	88.9% 가지치기에서 5개 VLM 모두 baseline 능가 · 최대 1.6× 가속 · FLOPs 최대 77.91%↓

결과

정량

Table 1·2. LLaVA-1.5-7B(192/128/64 유지)·LLaVA-1.5-13B·LLaVA-Next-7B 비교. VLM-Pruner(Ours)가 FastV·SparseVLM·PDrop·DART·DivPrune 대비 평균 최고, 특히 고압축(88.9%↓)·OCR에서 우위.

고압축·디테일 task에 강함 — 토큰 64개(88.9%↓)에서도 평균 최고. 공간 근접 우선 덕에 OCRBench·세밀한 VQA에서 흩어지는 방법(DART·DivPrune)보다 객체 영역을 잘 덮는다.

정성

Figure 2. 실제 가지치기 결과 비교(FastV·DART·VLM-Pruner). 초록=정답·빨강=오답 응답. VLM-Pruner는 트럭의 차체·타이어·앞유리처럼 객체 디테일을 빠짐없이 덮어 정답을 낸다.

객체를 빠짐없이 덮는다(Fig 2). FastV·DART가 흩어진 토큰으로 디테일을 놓쳐 틀리는 사례에서, VLM-Pruner는 객체 주변을 조밀하게 남겨(예: 트럭의 차체·타이어·앞유리) 정확히 답한다.

한 줄 정리 & 의의

“중복 + 공간 희소성”을 함께 — 근→원(centrifugal) 순서로 고른다. pivot에서 시작해 BSS로 가까운 토큰부터 선택, 버린 건 SWA로 회복 → 흩어짐 없이 객체 디테일 보존, training-free.
차별점. 중요도 기반 FastV·중복(다양성) 기반 DART·DivPrune이 공간 관계를 무시해 토큰이 흩어지는 문제를, 공간 근접 우선으로 푼다.
위치. LLM — LLM 디코더 2층에서 줄인다. → Efficient VLM 개요