Overview
Encoder
ToMe ICLR 2023
MADTP CVPR 2024
CrossGET ICML 2024
VLTP WACV 2025
VisionZip CVPR 2025
FastVLM CVPR 2025
Bridge
LLaVA-PruMerge ICCV 2025
Recoverable Compression AAAI 2025
DivPrune CVPR 2025
CDPruner NeurIPS 2025
CoViPAL EMNLP 2025
LLM
FastV ECCV 2024
SparseVLM ICML 2025
PyramidDrop CVPR 2025
ATP-LLaVA CVPR 2025
DART EMNLP 2025
TopV CVPR 2025
Encoder+LLM
IVTP ECCV 2024

Overview
VLM
BLIP G1 ICML 2022
Flamingo G2 NeurIPS 2022
BLIP-2 G2 ICML 2023
Kosmos-1 G2 arXiv 2023
LLaVA G3 NeurIPS 2023
MiniGPT-4 G3 arXiv 2023
InstructBLIP G3 NeurIPS 2023
Qwen-VL G3 arXiv 2023
LLaVA-1.5 G3 CVPR 2024
Gemini G4 arXiv 2023
InternVL G3 CVPR 2024
LLaVA-OneVision G4 arXiv 2024
Qwen2-VL G4 arXiv 2024
InternVL 2.5 G4 arXiv 2024
DeepSeek-VL2 G4 arXiv 2024
Qwen2.5-VL G4 arXiv 2025
InternVL3 G4 arXiv 2025
InternVL3.5 G4 arXiv 2025
Qwen3-VL G4 arXiv 2025
Modality Encoder
CLIP ICML 2021
SigLIP ICCV 2023
EVA-CLIP arXiv 2023
Input Projector
P-Former NeurIPS 2023

Token Reduction in ViTs (17)

Overview
Pruning
DynamicViT NeurIPS 2021
EViT ICLR 2022
Evo-ViT AAAI 2022
ATS ECCV 2022
AS-ViT IJCAI 2023
TPS CVPR 2023
Zero-TPrune CVPR 2024
STAR ICLR 2024
Frequency-Aware TR NeurIPS 2025
Token Cropr CVPR 2025
Merging
ToMe ICLR 2023
DTEM NeurIPS 2024
MCTF CVPR 2024
Pooling
TokenLearner NeurIPS 2021
Token Pooling WACV 2023
Hybrid
DiffRate ICCV 2023
Token Fusion (ToFu) WACV 2024

[CDPruner] Beyond Attention or Similarity: Maximizing Conditional Diversity for Token Pruning in MLLMs

NeurIPS 2025

2025 · bridge · efficient-vlm

Bridge NeurIPS 2025

Qizhe Zhang, Mengzhen Liu, … Qi She, Shanghang Zhang · Peking University / ByteDance

arXiv GitHub

한 줄 요약. 토큰 가지치기엔 두 갈래가 있다 — attention 기반(중요도 높은 토큰을 남김 → 비슷한 토큰이 함께 남아 중복이 많음)과 유사도 기반(중복은 줄지만 질문(instruction)을 무시해 늘 같은 토큰만 자름). CDPruner는 둘을 넘어 "조건부 다양성(conditional diversity)"을 최대화한다 — ① 질문에 조건화된 시각 토큰 간 유사도를 정의하고 ② DPP(Determinantal Point Process)로 그 조건부 다양성이 최대인 부분집합을 고른다. 결과적으로 서로 다르면서(다양)·질문에 관련된 토큰만 남는다. training-free·model-agnostic. LLaVA에서 FLOPs 95%↓·CUDA 지연 78%↓에 정확도 94% 유지, 여러 벤치 SOTA.

배경

MLLM은 시각 토큰이 텍스트보다 수십 배 길어 추론이 비싸다. 기존 가지치기 두 계열엔 각각 약점이 있다.

attention 기반 — 중요도가 높은 토큰을 남기지만, 중요한 토큰끼리 서로 유사해 중복이 남는다(효과적 압축 실패).
유사도 기반 — 중복은 줄지만 질문을 보지 않아, 어떤 질문이 오든 늘 같은 토큰을 자른다 → 정작 질문과 관련된 영역을 놓친다.

그럼 질문에 맞춰(조건부) + 서로 다른(다양) 토큰을 동시에 고르면 되지 않을까? — “중요도”도 “단순 유사도”도 아닌 조건부 다양성.

Figure 2. CDPruner 개요. 현재 지시문과의 관련도에 조건화해 시각 토큰 간 유사도를 계산하고, DPP로 남길 부분집합을 선택 — 선택 집합의 다양성과 품질(질문 관련성)을 동시에 보장. training-free·model-agnostic.

핵심 아이디어

① 조건부 유사도 (instruction-conditioned)

시각 토큰 간 유사도를 현재 질문(instruction)에 대한 관련도에 조건화해 정의. 질문과 무관한 유사/중복은 줄이되, 질문 관련 영역은 살리도록 한다(질문이 바뀌면 선택도 바뀌는 동적 가지치기).

② DPP로 조건부 다양성 최대화

가지치기를 DPP(Determinantal Point Process) 로 정식화 — 고른 부분집합의 조건부 다양성(서로 다름 × 질문 관련 품질)을 최대화. 중요도 기반의 중복도, 유사도 기반의 질문 무시도 동시에 피한다.

학습 — 추가 학습·fine-tuning 없는 training-free이고 model-agnostic이라 다양한 MLLM에 그대로 적용된다.

적용·평가

항목	내용
적용 모델	LLaVA-1.5(7B) 등 다양한 MLLM (model-agnostic)
데이터셋	10개 벤치마크 — GQA · MMBench(en/cn) · MME · POPE · SQA · VQAv2 · VizWiz · TextVQA 등
Task	Image Understanding (VQA · OCR · 환각 · 종합)
대표 결과	LLaVA에서 FLOPs 95%↓ · CUDA 지연 78%↓ · 정확도 94% 유지 · 여러 벤치 SOTA

결과

정량

Table 1. LLaVA-1.5-7B에서 가지치기 방법 비교(10개 벤치 평균 Acc·상대성능 Rel.). 여러 압축률에서 CDPruner가 PDrop·VisionZip·DivPrune 등 동시기 방법을 능가한다.

SOTA·고압축 — 10개 벤치 평균에서 PyramidDrop·VisionZip·DivPrune 등 동시기(CVPR25) 방법을 능가. LLaVA에서 FLOPs 95%↓·지연 78%↓에 94% 유지.

정성

Figure 1. 가지치기 방법 비교. attention 기반은 중복 토큰을 다수 남기고, 유사도 기반은 질문 무관하게 늘 같은 토큰을 자른다. CDPruner는 질문에 맞춰 'ICHIRAN' 로고·고추·숟가락 미끄럼방지 등 핵심 디테일 토큰을 살린다.

질문에 맞춰 남긴다(Fig 1). 같은 이미지라도 질문(“브랜드?”, “매운가?”, “숟가락 특이점?”)에 따라 남기는 토큰이 달라진다 — attention·유사도 기반이 모두 놓친 질문 관련 디테일(로고·고추·미끄럼방지 무늬)을 CDPruner는 보존한다.

한 줄 정리 & 의의

“중요도”도 “유사도”도 아닌 “조건부 다양성”. 질문에 조건화한 유사도 + DPP로, 서로 다르면서 질문에 관련된 토큰만 남긴다 — training-free·model-agnostic.
차별점. DivPrune가 (질문 무관) 다양성을 Max-Min으로 풀었다면, CDPruner는 질문에 조건화한 다양성을 DPP로 푼다 — 질문 적응성까지 더한 셈.
위치. Bridge — 인코더 출력과 LLM 사이에서 줄인다. → Efficient VLM 개요