Overview
Encoder
ToMe ICLR 2023
MADTP CVPR 2024
CrossGET ICML 2024
VLTP WACV 2025
VisionZip CVPR 2025
FastVLM CVPR 2025
Bridge
LLaVA-PruMerge ICCV 2025
Recoverable Compression AAAI 2025
DivPrune CVPR 2025
CDPruner NeurIPS 2025
CoViPAL EMNLP 2025
LLM
FastV ECCV 2024
SparseVLM ICML 2025
PyramidDrop CVPR 2025
ATP-LLaVA CVPR 2025
DART EMNLP 2025
TopV CVPR 2025
Encoder+LLM
IVTP ECCV 2024

Overview
VLM
BLIP G1 ICML 2022
Flamingo G2 NeurIPS 2022
BLIP-2 G2 ICML 2023
Kosmos-1 G2 arXiv 2023
LLaVA G3 NeurIPS 2023
MiniGPT-4 G3 arXiv 2023
InstructBLIP G3 NeurIPS 2023
Qwen-VL G3 arXiv 2023
LLaVA-1.5 G3 CVPR 2024
Gemini G4 arXiv 2023
InternVL G3 CVPR 2024
LLaVA-OneVision G4 arXiv 2024
Qwen2-VL G4 arXiv 2024
InternVL 2.5 G4 arXiv 2024
DeepSeek-VL2 G4 arXiv 2024
Qwen2.5-VL G4 arXiv 2025
InternVL3 G4 arXiv 2025
InternVL3.5 G4 arXiv 2025
Qwen3-VL G4 arXiv 2025
Modality Encoder
CLIP ICML 2021
SigLIP ICCV 2023
EVA-CLIP arXiv 2023
Input Projector
P-Former NeurIPS 2023

Token Reduction in ViTs (17)

Overview
Pruning
DynamicViT NeurIPS 2021
EViT ICLR 2022
Evo-ViT AAAI 2022
ATS ECCV 2022
AS-ViT IJCAI 2023
TPS CVPR 2023
Zero-TPrune CVPR 2024
STAR ICLR 2024
Frequency-Aware TR NeurIPS 2025
Token Cropr CVPR 2025
Merging
ToMe ICLR 2023
DTEM NeurIPS 2024
MCTF CVPR 2024
Pooling
TokenLearner NeurIPS 2021
Token Pooling WACV 2023
Hybrid
DiffRate ICCV 2023
Token Fusion (ToFu) WACV 2024

[IVTP] Instruction-guided Visual Token Pruning for Large Vision-Language Models

ECCV 2024

2024 · encoder-llm · efficient-vlm

Encoder+LLM ECCV 2024

Kai Huang, Hao Zou, … Liang Yu · Alibaba Group

ECCV 2024 PDF

한 줄 요약. LVLM의 시각 토큰을 2단계로 가지치기한다 — ① GTP(Group-wise Token Pruning): 인접한 ViT 층을 그룹으로 묶고 attention rollout(그룹 내 attention을 residual로 누적)으로 토큰 중요도를 안정적으로 추정(인코더가 freeze라 단층 attention은 불안정한데 이를 보완). ② LLM 단계 instruction 필터: 모듈을 LLM 앞쪽 층으로 확장해, 현재 지시문(text)에 관련된 시각 토큰만 남긴다 — CLIP 텍스트 분기로 만든 의미 연관 pseudo CLS 토큰을 기준으로(전체 텍스트를 다 쓰면 노이즈라서). 추가 학습 모듈이 없어 training-free(선택적 retraining 모드도 지원). LLaVA-1.5에서 시각 토큰 88.9%↓(576→64), FLOPs 46%↓, 12개 벤치 평균 1.0%만 하락하며 SOTA 능가.

배경

LVLM은 시각 토큰이 길어 비싸다. 토큰 가지치기 방법들엔 약점이 있었다.

trainable 압축 모듈(projector 자리) — 효과적이지만 아키텍처에 강결합돼 다른 모델로 이식이 어렵다.
비전 전용 가지치기를 그대로 이식 — 이식성은 좋지만, LVLM은 비전 인코더를 freeze하는 게 표준이라 가지치기를 end-to-end로 최적화할 수 없어 불안정하다.
전체 텍스트로 가이드 — 지시문 전체를 시각 토큰 선택에 쓰면 노이즈가 끼어 선택이 흔들린다.

freeze된 인코더에서도 안정적으로 중요도를 재고, 지시문 중 핵심만 가이드로 써서, 학습 없이 두 단계로 줄일 수 없을까?

Figure 2. IVTP의 2단계 구조. (1단계) ViT 안에서 그룹 단위 attention rollout으로 토큰 중요도를 재 GTP로 가지치기, (2단계) LLM 앞쪽 층에서 pseudo CLS 토큰을 기준으로 현재 지시문에 관련된 시각 토큰만 추가로 남긴다.

핵심 아이디어

① GTP — 그룹 attention rollout (인코더)

인접 ViT 층을 그룹으로 묶고, 그룹 내 attention을 residual로 누적(attention rollout)해 토큰 중요도를 추정. 단층 attention보다 출력 기여도와 상관이 높고 안정적 → ViT를 재학습 못 하는(frozen) 상황에 적합. ViT 전 층에서 3층마다 가지치기.

② Instruction 필터 (LLM)

같은 모듈을 LLM 앞쪽 12개 층으로 확장. CLIP 텍스트 분기로 만든 의미 연관 pseudo CLS 토큰을 기준으로, 현재 지시문에 관련된 시각 토큰만 추가 선별(관련도 임계값 0.2). 전체 텍스트를 쓰는 방식의 노이즈를 피한다.

2단계의 의미 — 인코더(task 무관 중복 제거) → LLM(지시문 관련만) 으로 체계적·점진적 축소. 그래서 위치가 Encoder+LLM.
학습 — 파라미터 최적화가 필요한 추가 모듈이 없어 사전학습 모델에 바로 끼우는 training-free(inference-only). 더 짜내려면 retraining 모드도 지원(둘 다 실험).

적용·평가

항목	내용
적용 모델	LLaVA-1.5(7B/13B) — 가장 대표적 LVLM
데이터셋	12개 image understanding 벤치마크 — VQAv2 · GQA · VizWiz · ScienceQA · TextVQA · POPE · MME · MMBench(en/cn) · SEED · MM-Vet · LLaVA-Bench
Task	Image Understanding(VQA·OCR·환각·종합·실사용 대화 등 12종)
대표 결과	시각 토큰 88.9%↓(576→64) · FLOPs 46%↓ · 12벤치 평균 1.0% 하락 · 16토큰 극단에서 경쟁기법 대비 ~5%↑

결과

Figure 3. pure inference에서 평균 정확도 vs TFLOPs. IVTP가 모든 연산량 구간에서 ToMe·EViT·TopK·Spatial pooling·Random을 능가하며, 토큰을 적게 남길수록(왼쪽) 격차가 커진다.

압축·정확도 — LLaVA-1.5에서 시각 토큰 88.9%↓(576→64), FLOPs 46%↓, 12벤치 평균 1.0%↓로 SOTA 가지치기 대비 +2% 이상.
극단 압축에 강함 — 16토큰만 남겨도 경쟁기법 대비 ~5%↑(Fig 3) — 지시문 관련 토큰을 지키는 2단계 설계 덕분.

한 줄 정리 & 의의

“인코더에서 한 번, LLM에서 또 한 번” — 지시문 가이드 2단계 토큰 가지치기. ① frozen ViT에서도 안정적인 GTP(attention rollout) ② LLM에서 pseudo CLS로 지시문 관련 토큰만 필터. 추가 학습 없이.
차별점. FastV가 LLM 한 층에서 한 번 자른다면, IVTP는 인코더와 LLM 양쪽에서 2단계로 자르고, frozen 인코더의 불안정성을 attention rollout으로 해결. 전체 텍스트가 아닌 pseudo CLS로 지시문 노이즈를 줄인 것도 차별점.
위치. Encoder+LLM — 두 단계에 걸쳐 줄인다. → Efficient VLM 개요