[LLaVA-PruMerge] Adaptive Token Reduction for Efficient Large Multimodal Models

Bridge ICCV 2025

Yuzhang Shang, Mu Cai, Bingxin Xu, Yong Jae Lee, Yan Yan · UCF / UW-Madison / USC / UIC

arXiv GitHub

한 줄 요약. 비전 인코더의 CLS 토큰 ↔ 패치 토큰 attention이 희소(sparse)하다 — 소수 토큰만 핵심 정보를 갖는다는 관찰. PruMerge는 이를 이용해 LLM에 넣기 전(브리지) 토큰을 적응적으로 줄인다 — ① IQR(사분위 범위) 이상치 탐지로 중요 토큰을 입력마다 다른 개수로 선택(글자 많은 복잡한 이미지엔 더 많이, 단순한 이미지엔 더 적게), ② 버릴 토큰을 k-NN으로 묶어 남은 토큰에 가중 평균으로 병합해 정보를 보충. 공간적으로 균일하게 토큰을 더 보태는 PruMerge+도 제안. training-free(추론만으로 적용). LLaVA-1.5에서 시각 토큰의 약 5.5%(평균 576→~32개)만으로 원본과 대등, prefill FLOPs 4~10×↓.

배경

LMM은 CLIP 인코더의 시각 토큰(예: 576개)을 prefix로 통째로 받아 쓰는데, 고해상도·비디오로 갈수록 토큰이 급증하고 비용은 토큰 수에 제곱으로 늘어난다.

  • 공간적 중복 — 시각 토큰 상당수가 중복이라, 대부분을 버려도 성능 손실이 작다.
  • 희소한 CLS attention — 인코더 self-attention에서 CLS 토큰과 패치 토큰의 유사도(attention)가 희소하다 — 소수의 패치만 핵심 시각 정보와 연결돼 있다. 이 희소성이 “어떤 토큰이 중요한가”의 단서가 된다.

그럼 고정 개수로 자르지 말고, CLS attention의 희소성을 읽어 입력마다 중요한 만큼만 남기고 나머지는 합치면 되지 않을까?

Figure 2. PruMerge 3단계. ① CLS-패치 attention 유사도로 중요 토큰을 적응적으로 샘플(PruMerge+는 공간 균일 샘플 추가) → ② k-NN으로 클러스터링 → ③ 가중 평균으로 병합해 남은 토큰을 보강. 인코더 출력 단계에서만 작동하고 LLM의 나머지는 그대로.

핵심 아이디어

① IQR로 적응적 선택 (Prune)

CLS-패치 attention 점수에 IQR(Interquartile Range) 이상치 탐지를 적용 — 분포에서 튀는(중요한) 토큰을 입력마다 다른 개수로 고른다. 고정 비율이 아니라 정보 밀도에 따라 복잡한 이미지엔 더 많이, 단순한 이미지엔 더 적게 남는다.

② k-NN 가중 병합 (Merge)

버릴 토큰을 그냥 버리지 않고, key 유사도로 k-NN 클러스터링해 가까운 중요 토큰에 가중 평균으로 합친다 → 남은 토큰의 정보를 보충·강화. PruMerge+는 여기에 공간 균일 샘플을 더해 커버리지를 높인다(성능 하락 최소화).

  • 학습 — 추가 파라미터·fine-tuning 없는 training-free. 추론 단계에서만 적용해 Video-LLaVA에도 그대로 확장.

적용·평가

항목 내용
적용 모델 LLaVA-1.5(7B/13B) · Video-LLaVA(비디오)
데이터셋 GQA · VizWiz · ScienceQA · TextVQA · POPE · MME · MMBench · VQAv2 등
Task Image·Video Understanding (VQA · OCR · 환각 · 종합)
대표 결과 시각 토큰 ~5.5%(평균 576→~32개)로 원본과 대등 · prefill FLOPs 4~10×↓ · PruMerge+는 하락을 더 줄임

결과

정량

Table 1. LMM 토큰 축소 비교. PruMerge·PruMerge+는 LLaVA-1.5에서 토큰을 ~5.5%만 남겨도 GQA·SQA·TextVQA·POPE·MME·MMBench 등에서 원모델과 대등하거나 더 좋다.
  • 극단 압축에 대등 — LLaVA-1.5에서 평균 ~32개 토큰(5.5%)으로 576개 전부 유지와 대등한 성능, prefill FLOPs 4~10×↓.
  • PruMerge+ — 공간 균일 샘플을 더해 성능 하락을 더 줄이며, 후속 연구의 강력한 baseline(ATP-LLaVA·DivPrune 등이 비교 대상으로 사용).

정성

Figure 1. 선택된 토큰 시각화. PruMerge는 정보 밀도에 따라 토큰을 적응적으로 샘플 — 글자가 많은 복잡한 이미지엔 더 많은 토큰을, 단순한 이미지엔 더 적은 토큰을 남기고, 정보가 밀집한 영역에 토큰이 모인다.
  • 적응적 샘플링(Fig 1). 같은 모델이라도 이미지의 정보 밀도에 따라 남기는 토큰 수가 달라진다 — 텍스트·디테일이 많은 이미지엔 더 많이, 단조로운 이미지엔 더 적게. 남는 토큰은 정보가 밀집한 영역에 집중된다.

한 줄 정리 & 의의

  • CLS attention 희소성으로 “적응적으로 줄이고(IQR) 합치는(k-NN)” 토큰 축소. 고정 비율이 아니라 입력마다 다른 개수 → ~5.5% 토큰으로 대등, training-free.
  • 차별점. 토큰을 버리기만 하는 가지치기와 달리 prune + merge로 정보를 보존하고, IQR 적응 선택으로 입력 난이도에 맞춘다. 초기 LMM 토큰 축소의 대표작으로, 이후 다수 방법의 비교 기준이 됐다.
  • 위치. Bridge — 인코더 출력과 LLM 사이에서 줄인다. → Efficient VLM 개요