[LLaVA-PruMerge] Adaptive Token Reduction for Efficient Large Multimodal Models
Yuzhang Shang, Mu Cai, Bingxin Xu, Yong Jae Lee, Yan Yan · UCF / UW-Madison / USC / UIC
한 줄 요약. 비전 인코더의 CLS 토큰 ↔ 패치 토큰 attention이 희소(sparse)하다 — 소수 토큰만 핵심 정보를 갖는다는 관찰. PruMerge는 이를 이용해 LLM에 넣기 전(브리지) 토큰을 적응적으로 줄인다 — ① IQR(사분위 범위) 이상치 탐지로 중요 토큰을 입력마다 다른 개수로 선택(글자 많은 복잡한 이미지엔 더 많이, 단순한 이미지엔 더 적게), ② 버릴 토큰을 k-NN으로 묶어 남은 토큰에 가중 평균으로 병합해 정보를 보충. 공간적으로 균일하게 토큰을 더 보태는 PruMerge+도 제안. training-free(추론만으로 적용). LLaVA-1.5에서 시각 토큰의 약 5.5%(평균 576→~32개)만으로 원본과 대등, prefill FLOPs 4~10×↓.
배경
LMM은 CLIP 인코더의 시각 토큰(예: 576개)을 prefix로 통째로 받아 쓰는데, 고해상도·비디오로 갈수록 토큰이 급증하고 비용은 토큰 수에 제곱으로 늘어난다.
- 공간적 중복 — 시각 토큰 상당수가 중복이라, 대부분을 버려도 성능 손실이 작다.
- 희소한 CLS attention — 인코더 self-attention에서 CLS 토큰과 패치 토큰의 유사도(attention)가 희소하다 — 소수의 패치만 핵심 시각 정보와 연결돼 있다. 이 희소성이 “어떤 토큰이 중요한가”의 단서가 된다.
그럼 고정 개수로 자르지 말고, CLS attention의 희소성을 읽어 입력마다 중요한 만큼만 남기고 나머지는 합치면 되지 않을까?
핵심 아이디어
CLS-패치 attention 점수에 IQR(Interquartile Range) 이상치 탐지를 적용 — 분포에서 튀는(중요한) 토큰을 입력마다 다른 개수로 고른다. 고정 비율이 아니라 정보 밀도에 따라 복잡한 이미지엔 더 많이, 단순한 이미지엔 더 적게 남는다.
버릴 토큰을 그냥 버리지 않고, key 유사도로 k-NN 클러스터링해 가까운 중요 토큰에 가중 평균으로 합친다 → 남은 토큰의 정보를 보충·강화. PruMerge+는 여기에 공간 균일 샘플을 더해 커버리지를 높인다(성능 하락 최소화).
- 학습 — 추가 파라미터·fine-tuning 없는 training-free. 추론 단계에서만 적용해 Video-LLaVA에도 그대로 확장.
적용·평가
| 항목 | 내용 |
|---|---|
| 적용 모델 | LLaVA-1.5(7B/13B) · Video-LLaVA(비디오) |
| 데이터셋 | GQA · VizWiz · ScienceQA · TextVQA · POPE · MME · MMBench · VQAv2 등 |
| Task | Image·Video Understanding (VQA · OCR · 환각 · 종합) |
| 대표 결과 | 시각 토큰 ~5.5%(평균 576→~32개)로 원본과 대등 · prefill FLOPs 4~10×↓ · PruMerge+는 하락을 더 줄임 |
결과
정량
- 극단 압축에 대등 — LLaVA-1.5에서 평균 ~32개 토큰(5.5%)으로 576개 전부 유지와 대등한 성능, prefill FLOPs 4~10×↓.
- PruMerge+ — 공간 균일 샘플을 더해 성능 하락을 더 줄이며, 후속 연구의 강력한 baseline(ATP-LLaVA·DivPrune 등이 비교 대상으로 사용).
정성
- 적응적 샘플링(Fig 1). 같은 모델이라도 이미지의 정보 밀도에 따라 남기는 토큰 수가 달라진다 — 텍스트·디테일이 많은 이미지엔 더 많이, 단조로운 이미지엔 더 적게. 남는 토큰은 정보가 밀집한 영역에 집중된다.
한 줄 정리 & 의의
- CLS attention 희소성으로 “적응적으로 줄이고(IQR) 합치는(k-NN)” 토큰 축소. 고정 비율이 아니라 입력마다 다른 개수 → ~5.5% 토큰으로 대등, training-free.
- 차별점. 토큰을 버리기만 하는 가지치기와 달리 prune + merge로 정보를 보존하고, IQR 적응 선택으로 입력 난이도에 맞춘다. 초기 LMM 토큰 축소의 대표작으로, 이후 다수 방법의 비교 기준이 됐다.
- 위치. Bridge — 인코더 출력과 LLM 사이에서 줄인다. → Efficient VLM 개요