Overview
Encoder
ToMe ICLR 2023
MADTP CVPR 2024
CrossGET ICML 2024
VLTP WACV 2025
VisionZip CVPR 2025
FastVLM CVPR 2025
Bridge
LLaVA-PruMerge ICCV 2025
Recoverable Compression AAAI 2025
DivPrune CVPR 2025
CDPruner NeurIPS 2025
CoViPAL EMNLP 2025
LLM
FastV ECCV 2024
SparseVLM ICML 2025
PyramidDrop CVPR 2025
ATP-LLaVA CVPR 2025
DART EMNLP 2025
TopV CVPR 2025
Encoder+LLM
IVTP ECCV 2024

Overview
VLM
BLIP G1 ICML 2022
Flamingo G2 NeurIPS 2022
BLIP-2 G2 ICML 2023
Kosmos-1 G2 arXiv 2023
LLaVA G3 NeurIPS 2023
MiniGPT-4 G3 arXiv 2023
InstructBLIP G3 NeurIPS 2023
Qwen-VL G3 arXiv 2023
LLaVA-1.5 G3 CVPR 2024
Gemini G4 arXiv 2023
InternVL G3 CVPR 2024
LLaVA-OneVision G4 arXiv 2024
Qwen2-VL G4 arXiv 2024
InternVL 2.5 G4 arXiv 2024
DeepSeek-VL2 G4 arXiv 2024
Qwen2.5-VL G4 arXiv 2025
InternVL3 G4 arXiv 2025
InternVL3.5 G4 arXiv 2025
Qwen3-VL G4 arXiv 2025
Modality Encoder
CLIP ICML 2021
SigLIP ICCV 2023
EVA-CLIP arXiv 2023
Input Projector
P-Former NeurIPS 2023

Token Reduction in ViTs (17)

Overview
Pruning
DynamicViT NeurIPS 2021
EViT ICLR 2022
Evo-ViT AAAI 2022
ATS ECCV 2022
AS-ViT IJCAI 2023
TPS CVPR 2023
Zero-TPrune CVPR 2024
STAR ICLR 2024
Frequency-Aware TR NeurIPS 2025
Token Cropr CVPR 2025
Merging
ToMe ICLR 2023
DTEM NeurIPS 2024
MCTF CVPR 2024
Pooling
TokenLearner NeurIPS 2021
Token Pooling WACV 2023
Hybrid
DiffRate ICCV 2023
Token Fusion (ToFu) WACV 2024

[ATP-LLaVA] Adaptive Token Pruning for Large Vision Language Models

CVPR 2025

2024 · llm-side · efficient-vlm

LLM CVPR 2025

Xubing Ye, Yukang Gan, Yixiao Ge, Xiao-Ping Zhang, Yansong Tang · Tsinghua University / Tencent ARC Lab

arXiv Project

한 줄 요약. LLM 디코더 안에서 시각 토큰을 자르는 방법들은 대개 미리 정한 고정 비율로 자른다. 그런데 얼마나 잘라도 되는지는 LLM 층마다, 그리고 입력(이미지-프롬프트) 인스턴스마다 다르다. ATP-LLaVA는 이를 적응적으로 — ATP(Adaptive Token Pruning) 모듈이 입력 인스턴스에 따라 중요도 점수와 가지치기 임계값을 계산해 층별·인스턴스별 압축률을 정한다(LLM 임의의 두 층 사이에 삽입, 오버헤드 미미). 추가로 SAP(Spatial Augmented Pruning) 로 토큰 중복뿐 아니라 공간 구조까지 고려해 자른다. ATP 모듈을 학습(training 필요). 평균 토큰 75%↓에 7개 벤치 1.9%만 하락.

배경

LVLM은 긴 시각 토큰 때문에 자원이 부족한 기기에서 비싸다. 기존 LLM-side 가지치기는 디코더 층의 중복을 관찰해 토큰을 잘랐지만 —

고정 비율의 한계 — 미리 정한(predefined/fixed) 비율로 모든 층·모든 입력에 똑같이 자른다.
하지만 영향은 다르다 — 같은 비율이라도 층마다, 인스턴스(이미지-프롬프트)마다 성능 영향이 다르다. 따라서 층별·인스턴스별로 다른 비율이 필요하다.

그럼 비율을 고정하지 말고, 입력과 층에 맞춰 “얼마나 자를지”를 적응적으로 정하면 안 될까?

Figure 2. ATP-LLaVA. ATP 모듈을 LLM 층 사이에 삽입해 인스턴스별 중요도·임계값을 계산하고 층마다 다른 압축률을 적응적으로 정한다. SAP는 토큰 중복 + 공간 모델링 관점으로 가지치기.

핵심 아이디어

① ATP 모듈 — 인스턴스·층별 적응 비율

입력 인스턴스에 따라 중요도 점수와 가지치기 임계값을 계산해, 각 LLM 층에서 자를 비율을 적응적으로 결정. 임의의 두 층 사이에 끼울 수 있고 추가 연산은 미미하다.

② SAP — 공간 보강 가지치기

Spatial Augmented Pruning — 토큰 중복만 보지 않고 공간 구조(spatial modeling) 관점도 함께 반영해 어떤 토큰을 남길지 정한다.

학습 — ATP 모듈(중요도·임계값 산출)을 학습해야 하므로 training-free가 아니다(training 필요).

적용·평가

항목	내용
적용 모델	LLaVA(LLaVA-1.5)
데이터셋	7개 벤치마크 — GQA · MMBench · MME · POPE · SEED · ScienceQA · TextVQA 등
Task	Image Understanding
대표 결과	평균 토큰 75%↓ 유지 · 7개 벤치 평균 1.9% 하락

결과

Table 1. LLM 디코더 내 토큰 가지치기 비교. ATP-LLaVA는 평균 토큰을 75% 줄이면서 7개 벤치 98.1% 성능을 유지.

압축·정확도 — LLaVA-1.5에서 평균 토큰 75%↓에 7개 벤치 98.1%(평균 1.9%↓) 유지.
효율(Table 6) — KV 캐시 메모리·CUDA 시간·FLOPs 모두 감소.
적응의 가치(Table 2) — 같은 학습 설정에서 고정 비율 전략 대비 우수 → “층·인스턴스별 적응 비율”이 실제로 이득.

한 줄 정리 & 의의

“얼마나 자를지”를 층·인스턴스별로 적응 결정. 고정 비율 대신 ATP 모듈로 입력에 맞춘 압축률 + SAP로 공간까지 고려 → 토큰 75%↓에 1.9% 하락.
차별점. FastV·PyramidDrop이 (대체로) 정해진 비율/스케줄로 자른다면, ATP-LLaVA는 인스턴스·층별 적응 비율을 학습한다(그 대가로 training 필요).
위치. LLM — LLM 디코더 층 사이에서 줄인다. → Efficient VLM 개요