[IVTP] Instruction-guided Visual Token Pruning for Large Vision-Language Models
Kai Huang, Hao Zou, … Liang Yu · Alibaba Group
한 줄 요약. LVLM의 시각 토큰을 2단계로 가지치기한다 — ① GTP(Group-wise Token Pruning): 인접한 ViT 층을 그룹으로 묶고 attention rollout(그룹 내 attention을 residual로 누적)으로 토큰 중요도를 안정적으로 추정(인코더가 freeze라 단층 attention은 불안정한데 이를 보완). ② LLM 단계 instruction 필터: 모듈을 LLM 앞쪽 층으로 확장해, 현재 지시문(text)에 관련된 시각 토큰만 남긴다 — CLIP 텍스트 분기로 만든 의미 연관 pseudo CLS 토큰을 기준으로(전체 텍스트를 다 쓰면 노이즈라서). 추가 학습 모듈이 없어 training-free(선택적 retraining 모드도 지원). LLaVA-1.5에서 시각 토큰 88.9%↓(576→64), FLOPs 46%↓, 12개 벤치 평균 1.0%만 하락하며 SOTA 능가.
배경
LVLM은 시각 토큰이 길어 비싸다. 토큰 가지치기 방법들엔 약점이 있었다.
- trainable 압축 모듈(projector 자리) — 효과적이지만 아키텍처에 강결합돼 다른 모델로 이식이 어렵다.
- 비전 전용 가지치기를 그대로 이식 — 이식성은 좋지만, LVLM은 비전 인코더를 freeze하는 게 표준이라 가지치기를 end-to-end로 최적화할 수 없어 불안정하다.
- 전체 텍스트로 가이드 — 지시문 전체를 시각 토큰 선택에 쓰면 노이즈가 끼어 선택이 흔들린다.
freeze된 인코더에서도 안정적으로 중요도를 재고, 지시문 중 핵심만 가이드로 써서, 학습 없이 두 단계로 줄일 수 없을까?
핵심 아이디어
인접 ViT 층을 그룹으로 묶고, 그룹 내 attention을 residual로 누적(attention rollout)해 토큰 중요도를 추정. 단층 attention보다 출력 기여도와 상관이 높고 안정적 → ViT를 재학습 못 하는(frozen) 상황에 적합. ViT 전 층에서 3층마다 가지치기.
같은 모듈을 LLM 앞쪽 12개 층으로 확장. CLIP 텍스트 분기로 만든 의미 연관 pseudo CLS 토큰을 기준으로, 현재 지시문에 관련된 시각 토큰만 추가 선별(관련도 임계값 0.2). 전체 텍스트를 쓰는 방식의 노이즈를 피한다.
- 2단계의 의미 — 인코더(task 무관 중복 제거) → LLM(지시문 관련만) 으로 체계적·점진적 축소. 그래서 위치가 Encoder+LLM.
- 학습 — 파라미터 최적화가 필요한 추가 모듈이 없어 사전학습 모델에 바로 끼우는 training-free(inference-only). 더 짜내려면 retraining 모드도 지원(둘 다 실험).
적용·평가
| 항목 | 내용 |
|---|---|
| 적용 모델 | LLaVA-1.5(7B/13B) — 가장 대표적 LVLM |
| 데이터셋 | 12개 image understanding 벤치마크 — VQAv2 · GQA · VizWiz · ScienceQA · TextVQA · POPE · MME · MMBench(en/cn) · SEED · MM-Vet · LLaVA-Bench |
| Task | Image Understanding(VQA·OCR·환각·종합·실사용 대화 등 12종) |
| 대표 결과 | 시각 토큰 88.9%↓(576→64) · FLOPs 46%↓ · 12벤치 평균 1.0% 하락 · 16토큰 극단에서 경쟁기법 대비 ~5%↑ |
결과
- 압축·정확도 — LLaVA-1.5에서 시각 토큰 88.9%↓(576→64), FLOPs 46%↓, 12벤치 평균 1.0%↓로 SOTA 가지치기 대비 +2% 이상.
- 극단 압축에 강함 — 16토큰만 남겨도 경쟁기법 대비 ~5%↑(Fig 3) — 지시문 관련 토큰을 지키는 2단계 설계 덕분.
한 줄 정리 & 의의
- “인코더에서 한 번, LLM에서 또 한 번” — 지시문 가이드 2단계 토큰 가지치기. ① frozen ViT에서도 안정적인 GTP(attention rollout) ② LLM에서 pseudo CLS로 지시문 관련 토큰만 필터. 추가 학습 없이.
- 차별점. FastV가 LLM 한 층에서 한 번 자른다면, IVTP는 인코더와 LLM 양쪽에서 2단계로 자르고, frozen 인코더의 불안정성을 attention rollout으로 해결. 전체 텍스트가 아닌 pseudo CLS로 지시문 노이즈를 줄인 것도 차별점.
- 위치. Encoder+LLM — 두 단계에 걸쳐 줄인다. → Efficient VLM 개요