[CDPruner] Beyond Attention or Similarity: Maximizing Conditional Diversity for Token Pruning in MLLMs
Qizhe Zhang, Mengzhen Liu, … Qi She, Shanghang Zhang · Peking University / ByteDance
한 줄 요약. 토큰 가지치기엔 두 갈래가 있다 — attention 기반(중요도 높은 토큰을 남김 → 비슷한 토큰이 함께 남아 중복이 많음)과 유사도 기반(중복은 줄지만 질문(instruction)을 무시해 늘 같은 토큰만 자름). CDPruner는 둘을 넘어 "조건부 다양성(conditional diversity)"을 최대화한다 — ① 질문에 조건화된 시각 토큰 간 유사도를 정의하고 ② DPP(Determinantal Point Process)로 그 조건부 다양성이 최대인 부분집합을 고른다. 결과적으로 서로 다르면서(다양)·질문에 관련된 토큰만 남는다. training-free·model-agnostic. LLaVA에서 FLOPs 95%↓·CUDA 지연 78%↓에 정확도 94% 유지, 여러 벤치 SOTA.
배경
MLLM은 시각 토큰이 텍스트보다 수십 배 길어 추론이 비싸다. 기존 가지치기 두 계열엔 각각 약점이 있다.
- attention 기반 — 중요도가 높은 토큰을 남기지만, 중요한 토큰끼리 서로 유사해 중복이 남는다(효과적 압축 실패).
- 유사도 기반 — 중복은 줄지만 질문을 보지 않아, 어떤 질문이 오든 늘 같은 토큰을 자른다 → 정작 질문과 관련된 영역을 놓친다.
그럼 질문에 맞춰(조건부) + 서로 다른(다양) 토큰을 동시에 고르면 되지 않을까? — “중요도”도 “단순 유사도”도 아닌 조건부 다양성.
핵심 아이디어
시각 토큰 간 유사도를 현재 질문(instruction)에 대한 관련도에 조건화해 정의. 질문과 무관한 유사/중복은 줄이되, 질문 관련 영역은 살리도록 한다(질문이 바뀌면 선택도 바뀌는 동적 가지치기).
가지치기를 DPP(Determinantal Point Process) 로 정식화 — 고른 부분집합의 조건부 다양성(서로 다름 × 질문 관련 품질)을 최대화. 중요도 기반의 중복도, 유사도 기반의 질문 무시도 동시에 피한다.
- 학습 — 추가 학습·fine-tuning 없는 training-free이고 model-agnostic이라 다양한 MLLM에 그대로 적용된다.
적용·평가
| 항목 | 내용 |
|---|---|
| 적용 모델 | LLaVA-1.5(7B) 등 다양한 MLLM (model-agnostic) |
| 데이터셋 | 10개 벤치마크 — GQA · MMBench(en/cn) · MME · POPE · SQA · VQAv2 · VizWiz · TextVQA 등 |
| Task | Image Understanding (VQA · OCR · 환각 · 종합) |
| 대표 결과 | LLaVA에서 FLOPs 95%↓ · CUDA 지연 78%↓ · 정확도 94% 유지 · 여러 벤치 SOTA |
결과
정량
- SOTA·고압축 — 10개 벤치 평균에서 PyramidDrop·VisionZip·DivPrune 등 동시기(CVPR25) 방법을 능가. LLaVA에서 FLOPs 95%↓·지연 78%↓에 94% 유지.
정성
- 질문에 맞춰 남긴다(Fig 1). 같은 이미지라도 질문(“브랜드?”, “매운가?”, “숟가락 특이점?”)에 따라 남기는 토큰이 달라진다 — attention·유사도 기반이 모두 놓친 질문 관련 디테일(로고·고추·미끄럼방지 무늬)을 CDPruner는 보존한다.
한 줄 정리 & 의의
- “중요도”도 “유사도”도 아닌 “조건부 다양성”. 질문에 조건화한 유사도 + DPP로, 서로 다르면서 질문에 관련된 토큰만 남긴다 — training-free·model-agnostic.
- 차별점. DivPrune가 (질문 무관) 다양성을 Max-Min으로 풀었다면, CDPruner는 질문에 조건화한 다양성을 DPP로 푼다 — 질문 적응성까지 더한 셈.
- 위치. Bridge — 인코더 출력과 LLM 사이에서 줄인다. → Efficient VLM 개요