[CDPruner] Beyond Attention or Similarity: Maximizing Conditional Diversity for Token Pruning in MLLMs

Bridge NeurIPS 2025

Qizhe Zhang, Mengzhen Liu, … Qi She, Shanghang Zhang · Peking University / ByteDance

arXiv GitHub

한 줄 요약. 토큰 가지치기엔 두 갈래가 있다 — attention 기반(중요도 높은 토큰을 남김 → 비슷한 토큰이 함께 남아 중복이 많음)과 유사도 기반(중복은 줄지만 질문(instruction)을 무시해 늘 같은 토큰만 자름). CDPruner는 둘을 넘어 "조건부 다양성(conditional diversity)"을 최대화한다 — ① 질문에 조건화된 시각 토큰 간 유사도를 정의하고 ② DPP(Determinantal Point Process)로 그 조건부 다양성이 최대인 부분집합을 고른다. 결과적으로 서로 다르면서(다양)·질문에 관련된 토큰만 남는다. training-free·model-agnostic. LLaVA에서 FLOPs 95%↓·CUDA 지연 78%↓에 정확도 94% 유지, 여러 벤치 SOTA.

배경

MLLM은 시각 토큰이 텍스트보다 수십 배 길어 추론이 비싸다. 기존 가지치기 두 계열엔 각각 약점이 있다.

  • attention 기반 — 중요도가 높은 토큰을 남기지만, 중요한 토큰끼리 서로 유사중복이 남는다(효과적 압축 실패).
  • 유사도 기반 — 중복은 줄지만 질문을 보지 않아, 어떤 질문이 오든 늘 같은 토큰을 자른다 → 정작 질문과 관련된 영역을 놓친다.

그럼 질문에 맞춰(조건부) + 서로 다른(다양) 토큰을 동시에 고르면 되지 않을까? — “중요도”도 “단순 유사도”도 아닌 조건부 다양성.

Figure 2. CDPruner 개요. 현재 지시문과의 관련도에 조건화해 시각 토큰 간 유사도를 계산하고, DPP로 남길 부분집합을 선택 — 선택 집합의 다양성과 품질(질문 관련성)을 동시에 보장. training-free·model-agnostic.

핵심 아이디어

① 조건부 유사도 (instruction-conditioned)

시각 토큰 간 유사도를 현재 질문(instruction)에 대한 관련도에 조건화해 정의. 질문과 무관한 유사/중복은 줄이되, 질문 관련 영역은 살리도록 한다(질문이 바뀌면 선택도 바뀌는 동적 가지치기).

② DPP로 조건부 다양성 최대화

가지치기를 DPP(Determinantal Point Process) 로 정식화 — 고른 부분집합의 조건부 다양성(서로 다름 × 질문 관련 품질)을 최대화. 중요도 기반의 중복도, 유사도 기반의 질문 무시도 동시에 피한다.

  • 학습 — 추가 학습·fine-tuning 없는 training-free이고 model-agnostic이라 다양한 MLLM에 그대로 적용된다.

적용·평가

항목 내용
적용 모델 LLaVA-1.5(7B) 등 다양한 MLLM (model-agnostic)
데이터셋 10개 벤치마크 — GQA · MMBench(en/cn) · MME · POPE · SQA · VQAv2 · VizWiz · TextVQA 등
Task Image Understanding (VQA · OCR · 환각 · 종합)
대표 결과 LLaVA에서 FLOPs 95%↓ · CUDA 지연 78%↓ · 정확도 94% 유지 · 여러 벤치 SOTA

결과

정량

Table 1. LLaVA-1.5-7B에서 가지치기 방법 비교(10개 벤치 평균 Acc·상대성능 Rel.). 여러 압축률에서 CDPruner가 PDrop·VisionZip·DivPrune 등 동시기 방법을 능가한다.
  • SOTA·고압축 — 10개 벤치 평균에서 PyramidDrop·VisionZip·DivPrune 등 동시기(CVPR25) 방법을 능가. LLaVA에서 FLOPs 95%↓·지연 78%↓94% 유지.

정성

Figure 1. 가지치기 방법 비교. attention 기반은 중복 토큰을 다수 남기고, 유사도 기반은 질문 무관하게 늘 같은 토큰을 자른다. CDPruner는 질문에 맞춰 'ICHIRAN' 로고·고추·숟가락 미끄럼방지 등 핵심 디테일 토큰을 살린다.
  • 질문에 맞춰 남긴다(Fig 1). 같은 이미지라도 질문(“브랜드?”, “매운가?”, “숟가락 특이점?”)에 따라 남기는 토큰이 달라진다 — attention·유사도 기반이 모두 놓친 질문 관련 디테일(로고·고추·미끄럼방지 무늬)을 CDPruner는 보존한다.

한 줄 정리 & 의의

  • “중요도”도 “유사도”도 아닌 “조건부 다양성”. 질문에 조건화한 유사도 + DPP로, 서로 다르면서 질문에 관련된 토큰만 남긴다 — training-free·model-agnostic.
  • 차별점. DivPrune가 (질문 무관) 다양성을 Max-Min으로 풀었다면, CDPruner는 질문에 조건화한 다양성DPP로 푼다 — 질문 적응성까지 더한 셈.
  • 위치. Bridge — 인코더 출력과 LLM 사이에서 줄인다. → Efficient VLM 개요