[G-Prune] What Kind of Visual Tokens Do We Need? Training-free Visual Token Pruning from the Perspective of Graph
Yutao Jiang, Qiong Wu, Wenhao Lin, Wei Yu, Yiyi Zhou · Xiamen University
한 줄 요약. ViT 토큰 가지치기는 보통 전경(foreground)의 "중요한" 토큰만 남기고 배경을 버린다. 하지만 MLLM에선 질문이 디테일을 묻기도 해서 전경뿐 아니라 배경 토큰도 중요하다(전경·배경의 2-Norm 분포가 겹친다). G-Prune은 이를 그래프로 푼다 — ① 시각 토큰을 노드로, 의미 유사도를 간선으로 그래프를 만들고 ② 반복적 정보 전파로 각 토큰의 중요도를 갱신해 ③ top-k를 남긴다(전경이든 배경이든). LLM의 attention을 쓰지 않아 MLLM 계산 과정에 묶이지 않고(FastV 등과 차이), training-free. LLaVA-NeXT에서 FLOPs 63.57%↓에 VQA2.0 −0.95%·TextVQA −2.34%.
배경
MLLM은 시각 약점을 보완하려 토큰을 많이 쓰는데(고해상도) 그만큼 중복·비용이 크다. ViT 토큰 가지치기를 그대로 가져오면 문제가 있다.
- 전경만 남기는 관성 — EViT·Evo-ViT 등은 CLS 유사도로 전경(주요 객체) 토큰을 남기고 배경을 버린다. 분류라면 충분하지만, MLLM은 배경의 디테일까지 질문받는다.
- 전경·배경 둘 다 중요 — 저자는 전경·배경 토큰의 2-Norm 분포가 크게 겹침을 보인다(Fig 1b). 전경만/배경만 남기는 가지치기는 모두 차선(Fig 1a).
- LLM 계산에 묶이면 비싸다 — FastV·Zero-TPrune처럼 LLM attention 계산에 통합하는 방식은 MLLM에 붙이기 비싸다.
그럼 LLM 계산에 기대지 말고, 시각 토큰들 사이의 관계(그래프) 로 “전경이든 배경이든 대표 토큰”을 골라낼 수 없을까?
핵심 아이디어
모든 시각 토큰을 노드로 보고, 토큰 간 의미 유사도로 가중 간선을 잇는다. 어떤 토큰이 "객체/영역을 대표"하는지를 LLM 없이 토큰들 관계만으로 본다.
반복적 알고리즘으로 간선을 따라 정보를 전파하며 각 토큰의 중요도 점수를 갱신. 수렴 후 top-k를 남기는데, 남는 토큰은 전경일 수도 배경일 수도 있다(각 객체의 대표 토큰).
- 학습 — 추가 파라미터·학습 없는 training-free이고, LLM 계산 과정에 통합하지 않는다(attention 행렬 불필요) → 여러 MLLM에 가볍게 적용.
적용·평가
| 항목 | 내용 |
|---|---|
| 적용 모델 | LLaVA-NeXT(8B) |
| 데이터셋 | VQA2.0 · TextVQA · MME · POPE · GQA · MMBench-EN · DocVQA · ChartQA |
| Task | coarse·fine-grained VL 이해(일반 VQA·OCR·문서·차트·환각) |
| 대표 결과 | LLaVA-NeXT FLOPs 63.57%↓ · VQA2.0 −0.95%·TextVQA −2.34% · MME +2.27%(토큰 50%) |
결과
정량
- 고압축에 강함 — 토큰 90% 가지치기에서 ToMe가 TextVQA −40.35%로 붕괴할 때, G-Prune은 같은 조건에서 ToMe 대비 +51.99% 유지. 텍스트·디테일 task에서 배경 보존의 이점이 두드러진다.
- 효율·정확도 — FLOPs 63.57%↓에 VQA2.0 −0.95%·TextVQA −2.34%, MME는 토큰 절반으로도 +2.27%.
정성
- 무엇을 남기나(Fig 6). ToMe·FastV가 전경 위주로 남기거나 고압축에서 정보 영역을 놓치는 데 비해, G-Prune은 정보량이 높은 영역(전경·배경 가리지 않고)의 토큰을 유지한다 — 그래프 전파로 “대표 토큰”을 고른 효과.
한 줄 정리 & 의의
- “전경·배경 둘 다 필요” — 그래프 전파로 대표 토큰을 고른다. 시각 토큰을 노드로, 의미 유사도로 연결해 정보 전파로 중요도를 매겨 top-k 유지 — training-free.
- 차별점. 전경만 남기는 ViT 가지치기(EViT·Evo-ViT), LLM attention에 묶인 FastV와 달리, G-Prune은 LLM 계산과 무관하게 그래프로 고른다. 다양성으로 중복을 피하는 DivPrune·조건부 다양성의 CDPruner와 같은 Bridge 계열(LLM 입력 전 선택).
- 위치. Bridge — 인코더 출력의 시각 토큰을 LLM에 넣기 전에 그래프로 선별. → Efficient VLM 개요