[G-Prune] What Kind of Visual Tokens Do We Need? Training-free Visual Token Pruning from the Perspective of Graph

Bridge AAAI 2025

Yutao Jiang, Qiong Wu, Wenhao Lin, Wei Yu, Yiyi Zhou · Xiamen University

arXiv GitHub

한 줄 요약. ViT 토큰 가지치기는 보통 전경(foreground)의 "중요한" 토큰만 남기고 배경을 버린다. 하지만 MLLM에선 질문이 디테일을 묻기도 해서 전경뿐 아니라 배경 토큰도 중요하다(전경·배경의 2-Norm 분포가 겹친다). G-Prune은 이를 그래프로 푼다 — ① 시각 토큰을 노드로, 의미 유사도를 간선으로 그래프를 만들고 ② 반복적 정보 전파로 각 토큰의 중요도를 갱신해 ③ top-k를 남긴다(전경이든 배경이든). LLM의 attention을 쓰지 않아 MLLM 계산 과정에 묶이지 않고(FastV 등과 차이), training-free. LLaVA-NeXT에서 FLOPs 63.57%↓에 VQA2.0 −0.95%·TextVQA −2.34%.

배경

MLLM은 시각 약점을 보완하려 토큰을 많이 쓰는데(고해상도) 그만큼 중복·비용이 크다. ViT 토큰 가지치기를 그대로 가져오면 문제가 있다.

  • 전경만 남기는 관성 — EViT·Evo-ViT 등은 CLS 유사도로 전경(주요 객체) 토큰을 남기고 배경을 버린다. 분류라면 충분하지만, MLLM은 배경의 디테일까지 질문받는다.
  • 전경·배경 둘 다 중요 — 저자는 전경·배경 토큰의 2-Norm 분포가 크게 겹침을 보인다(Fig 1b). 전경만/배경만 남기는 가지치기는 모두 차선(Fig 1a).
  • LLM 계산에 묶이면 비싸다 — FastV·Zero-TPrune처럼 LLM attention 계산에 통합하는 방식은 MLLM에 붙이기 비싸다.

그럼 LLM 계산에 기대지 말고, 시각 토큰들 사이의 관계(그래프) 로 “전경이든 배경이든 대표 토큰”을 골라낼 수 없을까?

Figure 1. (a) MMBench·TextVQA에서 Random·전경유지·배경유지·G-Prune의 가지치기율별 성능 — 전경만/배경만 유지가 모두 차선. (b) 전체·배경·전경의 2-Norm 빈도 분포가 크게 겹쳐, 단순 norm/전경 기준으론 가를 수 없음을 보인다.

핵심 아이디어

① 시각 토큰 → 그래프

모든 시각 토큰을 노드로 보고, 토큰 간 의미 유사도로 가중 간선을 잇는다. 어떤 토큰이 "객체/영역을 대표"하는지를 LLM 없이 토큰들 관계만으로 본다.

② 정보 전파 → top-k 선택

반복적 알고리즘으로 간선을 따라 정보를 전파하며 각 토큰의 중요도 점수를 갱신. 수렴 후 top-k를 남기는데, 남는 토큰은 전경일 수도 배경일 수도 있다(각 객체의 대표 토큰).

  • 학습 — 추가 파라미터·학습 없는 training-free이고, LLM 계산 과정에 통합하지 않는다(attention 행렬 불필요) → 여러 MLLM에 가볍게 적용.

적용·평가

항목 내용
적용 모델 LLaVA-NeXT(8B)
데이터셋 VQA2.0 · TextVQA · MME · POPE · GQA · MMBench-EN · DocVQA · ChartQA
Task coarse·fine-grained VL 이해(일반 VQA·OCR·문서·차트·환각)
대표 결과 LLaVA-NeXT FLOPs 63.57%↓ · VQA2.0 −0.95%·TextVQA −2.34% · MME +2.27%(토큰 50%)

결과

정량

Table 1. 여러 FLOPs 비율에서 SOTA 비교(LLaVA-NeXT-8B). G-Prune이 Random·ToMe·FastV 대비 일반 VQA·MLLM 벤치·텍스트형 VQA 전반에서 우위, 특히 고압축에서 격차가 크다.
  • 고압축에 강함 — 토큰 90% 가지치기에서 ToMe가 TextVQA −40.35%로 붕괴할 때, G-Prune은 같은 조건에서 ToMe 대비 +51.99% 유지. 텍스트·디테일 task에서 배경 보존의 이점이 두드러진다.
  • 효율·정확도 — FLOPs 63.57%↓에 VQA2.0 −0.95%·TextVQA −2.34%, MME는 토큰 절반으로도 +2.27%.

정성

Figure 6. ToMe·FastV·G-Prune의 유지 토큰 시각화(LLaVA-NeXT, 50/70/90% 가지치기). G-Prune은 정보량이 큰 영역의 토큰을 더 잘 남겨 fine-grained task에서 유리하다.
  • 무엇을 남기나(Fig 6). ToMe·FastV가 전경 위주로 남기거나 고압축에서 정보 영역을 놓치는 데 비해, G-Prune은 정보량이 높은 영역(전경·배경 가리지 않고)의 토큰을 유지한다 — 그래프 전파로 “대표 토큰”을 고른 효과.

한 줄 정리 & 의의

  • “전경·배경 둘 다 필요” — 그래프 전파로 대표 토큰을 고른다. 시각 토큰을 노드로, 의미 유사도로 연결해 정보 전파로 중요도를 매겨 top-k 유지 — training-free.
  • 차별점. 전경만 남기는 ViT 가지치기(EViT·Evo-ViT), LLM attention에 묶인 FastV와 달리, G-Prune은 LLM 계산과 무관하게 그래프로 고른다. 다양성으로 중복을 피하는 DivPrune·조건부 다양성의 CDPruner와 같은 Bridge 계열(LLM 입력 전 선택).
  • 위치. Bridge — 인코더 출력의 시각 토큰을 LLM에 넣기 전에 그래프로 선별. → Efficient VLM 개요