Overview
Encoder
ToMe ICLR 2023
MADTP CVPR 2024
CrossGET ICML 2024
VLTP WACV 2025
VisionZip CVPR 2025
FastVLM CVPR 2025
Bridge
LLaVA-PruMerge ICCV 2025
Recoverable Compression AAAI 2025
G-Prune AAAI 2025
DivPrune CVPR 2025
CDPruner NeurIPS 2025
CoViPAL EMNLP 2025
ZOO-Prune CVPR 2026
LLM
FastV ECCV 2024
SparseVLM ICML 2025
PyramidDrop CVPR 2025
ATP-LLaVA CVPR 2025
DART EMNLP 2025
TopV CVPR 2025
VLM-Pruner CVPR 2026
Encoder+LLM
IVTP ECCV 2024

Overview
VLM
BLIP G1 ICML 2022
Flamingo G2 NeurIPS 2022
BLIP-2 G2 ICML 2023
Kosmos-1 G2 arXiv 2023
LLaVA G3 NeurIPS 2023
MiniGPT-4 G3 arXiv 2023
InstructBLIP G3 NeurIPS 2023
Qwen-VL G3 arXiv 2023
LLaVA-1.5 G3 CVPR 2024
Gemini G4 arXiv 2023
InternVL G3 CVPR 2024
LLaVA-OneVision G4 arXiv 2024
Qwen2-VL G4 arXiv 2024
InternVL 2.5 G4 arXiv 2024
DeepSeek-VL2 G4 arXiv 2024
Qwen2.5-VL G4 arXiv 2025
InternVL3 G4 arXiv 2025
InternVL3.5 G4 arXiv 2025
Qwen3-VL G4 arXiv 2025
Modality Encoder
CLIP ICML 2021
SigLIP ICCV 2023
EVA-CLIP arXiv 2023
Input Projector
P-Former NeurIPS 2023

Token Reduction in ViTs (17)

Overview
Pruning
DynamicViT NeurIPS 2021
EViT ICLR 2022
Evo-ViT AAAI 2022
ATS ECCV 2022
AS-ViT IJCAI 2023
TPS CVPR 2023
Zero-TPrune CVPR 2024
STAR ICLR 2024
Frequency-Aware TR NeurIPS 2025
Token Cropr CVPR 2025
Merging
ToMe ICLR 2023
DTEM NeurIPS 2024
MCTF CVPR 2024
Pooling
TokenLearner NeurIPS 2021
Token Pooling WACV 2023
Hybrid
DiffRate ICCV 2023
Token Fusion (ToFu) WACV 2024

[G-Prune] What Kind of Visual Tokens Do We Need? Training-free Visual Token Pruning from the Perspective of Graph

AAAI 2025

2025 · bridge · efficient-vlm

Bridge AAAI 2025

Yutao Jiang, Qiong Wu, Wenhao Lin, Wei Yu, Yiyi Zhou · Xiamen University

arXiv GitHub

한 줄 요약. ViT 토큰 가지치기는 보통 전경(foreground)의 "중요한" 토큰만 남기고 배경을 버린다. 하지만 MLLM에선 질문이 디테일을 묻기도 해서 전경뿐 아니라 배경 토큰도 중요하다(전경·배경의 2-Norm 분포가 겹친다). G-Prune은 이를 그래프로 푼다 — ① 시각 토큰을 노드로, 의미 유사도를 간선으로 그래프를 만들고 ② 반복적 정보 전파로 각 토큰의 중요도를 갱신해 ③ top-k를 남긴다(전경이든 배경이든). LLM의 attention을 쓰지 않아 MLLM 계산 과정에 묶이지 않고(FastV 등과 차이), training-free. LLaVA-NeXT에서 FLOPs 63.57%↓에 VQA2.0 −0.95%·TextVQA −2.34%.

배경

MLLM은 시각 약점을 보완하려 토큰을 많이 쓰는데(고해상도) 그만큼 중복·비용이 크다. ViT 토큰 가지치기를 그대로 가져오면 문제가 있다.

전경만 남기는 관성 — EViT·Evo-ViT 등은 CLS 유사도로 전경(주요 객체) 토큰을 남기고 배경을 버린다. 분류라면 충분하지만, MLLM은 배경의 디테일까지 질문받는다.
전경·배경 둘 다 중요 — 저자는 전경·배경 토큰의 2-Norm 분포가 크게 겹침을 보인다(Fig 1b). 전경만/배경만 남기는 가지치기는 모두 차선(Fig 1a).
LLM 계산에 묶이면 비싸다 — FastV·Zero-TPrune처럼 LLM attention 계산에 통합하는 방식은 MLLM에 붙이기 비싸다.

그럼 LLM 계산에 기대지 말고, 시각 토큰들 사이의 관계(그래프) 로 “전경이든 배경이든 대표 토큰”을 골라낼 수 없을까?

Figure 1. (a) MMBench·TextVQA에서 Random·전경유지·배경유지·G-Prune의 가지치기율별 성능 — 전경만/배경만 유지가 모두 차선. (b) 전체·배경·전경의 2-Norm 빈도 분포가 크게 겹쳐, 단순 norm/전경 기준으론 가를 수 없음을 보인다.

핵심 아이디어

① 시각 토큰 → 그래프

모든 시각 토큰을 노드로 보고, 토큰 간 의미 유사도로 가중 간선을 잇는다. 어떤 토큰이 "객체/영역을 대표"하는지를 LLM 없이 토큰들 관계만으로 본다.

② 정보 전파 → top-k 선택

반복적 알고리즘으로 간선을 따라 정보를 전파하며 각 토큰의 중요도 점수를 갱신. 수렴 후 top-k를 남기는데, 남는 토큰은 전경일 수도 배경일 수도 있다(각 객체의 대표 토큰).

학습 — 추가 파라미터·학습 없는 training-free이고, LLM 계산 과정에 통합하지 않는다(attention 행렬 불필요) → 여러 MLLM에 가볍게 적용.

적용·평가

항목	내용
적용 모델	LLaVA-NeXT(8B)
데이터셋	VQA2.0 · TextVQA · MME · POPE · GQA · MMBench-EN · DocVQA · ChartQA
Task	coarse·fine-grained VL 이해(일반 VQA·OCR·문서·차트·환각)
대표 결과	LLaVA-NeXT FLOPs 63.57%↓ · VQA2.0 −0.95%·TextVQA −2.34% · MME +2.27%(토큰 50%)

결과

정량

Table 1. 여러 FLOPs 비율에서 SOTA 비교(LLaVA-NeXT-8B). G-Prune이 Random·ToMe·FastV 대비 일반 VQA·MLLM 벤치·텍스트형 VQA 전반에서 우위, 특히 고압축에서 격차가 크다.

고압축에 강함 — 토큰 90% 가지치기에서 ToMe가 TextVQA −40.35%로 붕괴할 때, G-Prune은 같은 조건에서 ToMe 대비 +51.99% 유지. 텍스트·디테일 task에서 배경 보존의 이점이 두드러진다.
효율·정확도 — FLOPs 63.57%↓에 VQA2.0 −0.95%·TextVQA −2.34%, MME는 토큰 절반으로도 +2.27%.

정성

Figure 6. ToMe·FastV·G-Prune의 유지 토큰 시각화(LLaVA-NeXT, 50/70/90% 가지치기). G-Prune은 정보량이 큰 영역의 토큰을 더 잘 남겨 fine-grained task에서 유리하다.

무엇을 남기나(Fig 6). ToMe·FastV가 전경 위주로 남기거나 고압축에서 정보 영역을 놓치는 데 비해, G-Prune은 정보량이 높은 영역(전경·배경 가리지 않고)의 토큰을 유지한다 — 그래프 전파로 “대표 토큰”을 고른 효과.

한 줄 정리 & 의의

“전경·배경 둘 다 필요” — 그래프 전파로 대표 토큰을 고른다. 시각 토큰을 노드로, 의미 유사도로 연결해 정보 전파로 중요도를 매겨 top-k 유지 — training-free.
차별점. 전경만 남기는 ViT 가지치기(EViT·Evo-ViT), LLM attention에 묶인 FastV와 달리, G-Prune은 LLM 계산과 무관하게 그래프로 고른다. 다양성으로 중복을 피하는 DivPrune·조건부 다양성의 CDPruner와 같은 Bridge 계열(LLM 입력 전 선택).
위치. Bridge — 인코더 출력의 시각 토큰을 LLM에 넣기 전에 그래프로 선별. → Efficient VLM 개요