Overview
Encoder
ToMe ICLR 2023
MADTP CVPR 2024
CrossGET ICML 2024
VLTP WACV 2025
VisionZip CVPR 2025
FastVLM CVPR 2025
Bridge
LLaVA-PruMerge ICCV 2025
Recoverable Compression AAAI 2025
DivPrune CVPR 2025
CDPruner NeurIPS 2025
CoViPAL EMNLP 2025
LLM
FastV ECCV 2024
SparseVLM ICML 2025
PyramidDrop CVPR 2025
ATP-LLaVA CVPR 2025
DART EMNLP 2025
TopV CVPR 2025
Encoder+LLM
IVTP ECCV 2024

Overview
VLM
BLIP G1 ICML 2022
Flamingo G2 NeurIPS 2022
BLIP-2 G2 ICML 2023
Kosmos-1 G2 arXiv 2023
LLaVA G3 NeurIPS 2023
MiniGPT-4 G3 arXiv 2023
InstructBLIP G3 NeurIPS 2023
Qwen-VL G3 arXiv 2023
LLaVA-1.5 G3 CVPR 2024
Gemini G4 arXiv 2023
InternVL G3 CVPR 2024
LLaVA-OneVision G4 arXiv 2024
Qwen2-VL G4 arXiv 2024
InternVL 2.5 G4 arXiv 2024
DeepSeek-VL2 G4 arXiv 2024
Qwen2.5-VL G4 arXiv 2025
InternVL3 G4 arXiv 2025
InternVL3.5 G4 arXiv 2025
Qwen3-VL G4 arXiv 2025
Modality Encoder
CLIP ICML 2021
SigLIP ICCV 2023
EVA-CLIP arXiv 2023
Input Projector
P-Former NeurIPS 2023

Token Reduction in ViTs (17)

Overview
Pruning
DynamicViT NeurIPS 2021
EViT ICLR 2022
Evo-ViT AAAI 2022
ATS ECCV 2022
AS-ViT IJCAI 2023
TPS CVPR 2023
Zero-TPrune CVPR 2024
STAR ICLR 2024
Frequency-Aware TR NeurIPS 2025
Token Cropr CVPR 2025
Merging
ToMe ICLR 2023
DTEM NeurIPS 2024
MCTF CVPR 2024
Pooling
TokenLearner NeurIPS 2021
Token Pooling WACV 2023
Hybrid
DiffRate ICCV 2023
Token Fusion (ToFu) WACV 2024

[LLaVA-PruMerge] Adaptive Token Reduction for Efficient Large Multimodal Models

ICCV 2025

2024 · bridge · efficient-vlm

Bridge ICCV 2025

Yuzhang Shang, Mu Cai, Bingxin Xu, Yong Jae Lee, Yan Yan · UCF / UW-Madison / USC / UIC

arXiv GitHub

한 줄 요약. 비전 인코더의 CLS 토큰 ↔ 패치 토큰 attention이 희소(sparse)하다 — 소수 토큰만 핵심 정보를 갖는다는 관찰. PruMerge는 이를 이용해 LLM에 넣기 전(브리지) 토큰을 적응적으로 줄인다 — ① IQR(사분위 범위) 이상치 탐지로 중요 토큰을 입력마다 다른 개수로 선택(글자 많은 복잡한 이미지엔 더 많이, 단순한 이미지엔 더 적게), ② 버릴 토큰을 k-NN으로 묶어 남은 토큰에 가중 평균으로 병합해 정보를 보충. 공간적으로 균일하게 토큰을 더 보태는 PruMerge+도 제안. training-free(추론만으로 적용). LLaVA-1.5에서 시각 토큰의 약 5.5%(평균 576→~32개)만으로 원본과 대등, prefill FLOPs 4~10×↓.

배경

LMM은 CLIP 인코더의 시각 토큰(예: 576개)을 prefix로 통째로 받아 쓰는데, 고해상도·비디오로 갈수록 토큰이 급증하고 비용은 토큰 수에 제곱으로 늘어난다.

공간적 중복 — 시각 토큰 상당수가 중복이라, 대부분을 버려도 성능 손실이 작다.
희소한 CLS attention — 인코더 self-attention에서 CLS 토큰과 패치 토큰의 유사도(attention)가 희소하다 — 소수의 패치만 핵심 시각 정보와 연결돼 있다. 이 희소성이 “어떤 토큰이 중요한가”의 단서가 된다.

그럼 고정 개수로 자르지 말고, CLS attention의 희소성을 읽어 입력마다 중요한 만큼만 남기고 나머지는 합치면 되지 않을까?

Figure 2. PruMerge 3단계. ① CLS-패치 attention 유사도로 중요 토큰을 적응적으로 샘플(PruMerge+는 공간 균일 샘플 추가) → ② k-NN으로 클러스터링 → ③ 가중 평균으로 병합해 남은 토큰을 보강. 인코더 출력 단계에서만 작동하고 LLM의 나머지는 그대로.

핵심 아이디어

① IQR로 적응적 선택 (Prune)

CLS-패치 attention 점수에 IQR(Interquartile Range) 이상치 탐지를 적용 — 분포에서 튀는(중요한) 토큰을 입력마다 다른 개수로 고른다. 고정 비율이 아니라 정보 밀도에 따라 복잡한 이미지엔 더 많이, 단순한 이미지엔 더 적게 남는다.

② k-NN 가중 병합 (Merge)

버릴 토큰을 그냥 버리지 않고, key 유사도로 k-NN 클러스터링해 가까운 중요 토큰에 가중 평균으로 합친다 → 남은 토큰의 정보를 보충·강화. PruMerge+는 여기에 공간 균일 샘플을 더해 커버리지를 높인다(성능 하락 최소화).

학습 — 추가 파라미터·fine-tuning 없는 training-free. 추론 단계에서만 적용해 Video-LLaVA에도 그대로 확장.

적용·평가

항목	내용
적용 모델	LLaVA-1.5(7B/13B) · Video-LLaVA(비디오)
데이터셋	GQA · VizWiz · ScienceQA · TextVQA · POPE · MME · MMBench · VQAv2 등
Task	Image·Video Understanding (VQA · OCR · 환각 · 종합)
대표 결과	시각 토큰 ~5.5%(평균 576→~32개)로 원본과 대등 · prefill FLOPs 4~10×↓ · PruMerge+는 하락을 더 줄임

결과

정량

Table 1. LMM 토큰 축소 비교. PruMerge·PruMerge+는 LLaVA-1.5에서 토큰을 ~5.5%만 남겨도 GQA·SQA·TextVQA·POPE·MME·MMBench 등에서 원모델과 대등하거나 더 좋다.

극단 압축에 대등 — LLaVA-1.5에서 평균 ~32개 토큰(5.5%)으로 576개 전부 유지와 대등한 성능, prefill FLOPs 4~10×↓.
PruMerge+ — 공간 균일 샘플을 더해 성능 하락을 더 줄이며, 후속 연구의 강력한 baseline(ATP-LLaVA·DivPrune 등이 비교 대상으로 사용).

정성

Figure 1. 선택된 토큰 시각화. PruMerge는 정보 밀도에 따라 토큰을 적응적으로 샘플 — 글자가 많은 복잡한 이미지엔 더 많은 토큰을, 단순한 이미지엔 더 적은 토큰을 남기고, 정보가 밀집한 영역에 토큰이 모인다.

적응적 샘플링(Fig 1). 같은 모델이라도 이미지의 정보 밀도에 따라 남기는 토큰 수가 달라진다 — 텍스트·디테일이 많은 이미지엔 더 많이, 단조로운 이미지엔 더 적게. 남는 토큰은 정보가 밀집한 영역에 집중된다.

한 줄 정리 & 의의

CLS attention 희소성으로 “적응적으로 줄이고(IQR) 합치는(k-NN)” 토큰 축소. 고정 비율이 아니라 입력마다 다른 개수 → ~5.5% 토큰으로 대등, training-free.
차별점. 토큰을 버리기만 하는 가지치기와 달리 prune + merge로 정보를 보존하고, IQR 적응 선택으로 입력 난이도에 맞춘다. 초기 LMM 토큰 축소의 대표작으로, 이후 다수 방법의 비교 기준이 됐다.
위치. Bridge — 인코더 출력과 LLM 사이에서 줄인다. → Efficient VLM 개요