[IVTP] Instruction-guided Visual Token Pruning for Large Vision-Language Models

Encoder+LLM ECCV 2024

Kai Huang, Hao Zou, … Liang Yu · Alibaba Group

ECCV 2024 PDF

한 줄 요약. LVLM의 시각 토큰을 2단계로 가지치기한다 — ① GTP(Group-wise Token Pruning): 인접한 ViT 층을 그룹으로 묶고 attention rollout(그룹 내 attention을 residual로 누적)으로 토큰 중요도를 안정적으로 추정(인코더가 freeze라 단층 attention은 불안정한데 이를 보완). ② LLM 단계 instruction 필터: 모듈을 LLM 앞쪽 층으로 확장해, 현재 지시문(text)에 관련된 시각 토큰만 남긴다 — CLIP 텍스트 분기로 만든 의미 연관 pseudo CLS 토큰을 기준으로(전체 텍스트를 다 쓰면 노이즈라서). 추가 학습 모듈이 없어 training-free(선택적 retraining 모드도 지원). LLaVA-1.5에서 시각 토큰 88.9%↓(576→64), FLOPs 46%↓, 12개 벤치 평균 1.0%만 하락하며 SOTA 능가.

배경

LVLM은 시각 토큰이 길어 비싸다. 토큰 가지치기 방법들엔 약점이 있었다.

  • trainable 압축 모듈(projector 자리) — 효과적이지만 아키텍처에 강결합돼 다른 모델로 이식이 어렵다.
  • 비전 전용 가지치기를 그대로 이식 — 이식성은 좋지만, LVLM은 비전 인코더를 freeze하는 게 표준이라 가지치기를 end-to-end로 최적화할 수 없어 불안정하다.
  • 전체 텍스트로 가이드 — 지시문 전체를 시각 토큰 선택에 쓰면 노이즈가 끼어 선택이 흔들린다.

freeze된 인코더에서도 안정적으로 중요도를 재고, 지시문 중 핵심만 가이드로 써서, 학습 없이 두 단계로 줄일 수 없을까?

Figure 2. IVTP의 2단계 구조. (1단계) ViT 안에서 그룹 단위 attention rollout으로 토큰 중요도를 재 GTP로 가지치기, (2단계) LLM 앞쪽 층에서 pseudo CLS 토큰을 기준으로 현재 지시문에 관련된 시각 토큰만 추가로 남긴다.

핵심 아이디어

① GTP — 그룹 attention rollout (인코더)

인접 ViT 층을 그룹으로 묶고, 그룹 내 attention을 residual로 누적(attention rollout)해 토큰 중요도를 추정. 단층 attention보다 출력 기여도와 상관이 높고 안정적 → ViT를 재학습 못 하는(frozen) 상황에 적합. ViT 전 층에서 3층마다 가지치기.

② Instruction 필터 (LLM)

같은 모듈을 LLM 앞쪽 12개 층으로 확장. CLIP 텍스트 분기로 만든 의미 연관 pseudo CLS 토큰을 기준으로, 현재 지시문에 관련된 시각 토큰만 추가 선별(관련도 임계값 0.2). 전체 텍스트를 쓰는 방식의 노이즈를 피한다.

  • 2단계의 의미 — 인코더(task 무관 중복 제거) → LLM(지시문 관련만) 으로 체계적·점진적 축소. 그래서 위치가 Encoder+LLM.
  • 학습 — 파라미터 최적화가 필요한 추가 모듈이 없어 사전학습 모델에 바로 끼우는 training-free(inference-only). 더 짜내려면 retraining 모드도 지원(둘 다 실험).

적용·평가

항목 내용
적용 모델 LLaVA-1.5(7B/13B) — 가장 대표적 LVLM
데이터셋 12개 image understanding 벤치마크 — VQAv2 · GQA · VizWiz · ScienceQA · TextVQA · POPE · MME · MMBench(en/cn) · SEED · MM-Vet · LLaVA-Bench
Task Image Understanding(VQA·OCR·환각·종합·실사용 대화 등 12종)
대표 결과 시각 토큰 88.9%↓(576→64) · FLOPs 46%↓ · 12벤치 평균 1.0% 하락 · 16토큰 극단에서 경쟁기법 대비 ~5%↑

결과

Figure 3. pure inference에서 평균 정확도 vs TFLOPs. IVTP가 모든 연산량 구간에서 ToMe·EViT·TopK·Spatial pooling·Random을 능가하며, 토큰을 적게 남길수록(왼쪽) 격차가 커진다.
  • 압축·정확도 — LLaVA-1.5에서 시각 토큰 88.9%↓(576→64), FLOPs 46%↓, 12벤치 평균 1.0%↓로 SOTA 가지치기 대비 +2% 이상.
  • 극단 압축에 강함16토큰만 남겨도 경쟁기법 대비 ~5%↑(Fig 3) — 지시문 관련 토큰을 지키는 2단계 설계 덕분.

한 줄 정리 & 의의

  • “인코더에서 한 번, LLM에서 또 한 번” — 지시문 가이드 2단계 토큰 가지치기. ① frozen ViT에서도 안정적인 GTP(attention rollout) ② LLM에서 pseudo CLS로 지시문 관련 토큰만 필터. 추가 학습 없이.
  • 차별점. FastV가 LLM 한 층에서 한 번 자른다면, IVTP는 인코더와 LLM 양쪽에서 2단계로 자르고, frozen 인코더의 불안정성을 attention rollout으로 해결. 전체 텍스트가 아닌 pseudo CLS로 지시문 노이즈를 줄인 것도 차별점.
  • 위치. Encoder+LLM — 두 단계에 걸쳐 줄인다. → Efficient VLM 개요