Overview
Encoder
ToMe ICLR 2023
MADTP CVPR 2024
CrossGET ICML 2024
VLTP WACV 2025
VisionZip CVPR 2025
FastVLM CVPR 2025
Bridge
LLaVA-PruMerge ICCV 2025
Recoverable Compression AAAI 2025
DivPrune CVPR 2025
CDPruner NeurIPS 2025
CoViPAL EMNLP 2025
LLM
FastV ECCV 2024
SparseVLM ICML 2025
PyramidDrop CVPR 2025
ATP-LLaVA CVPR 2025
DART EMNLP 2025
TopV CVPR 2025
Encoder+LLM
IVTP ECCV 2024

Overview
VLM
BLIP G1 ICML 2022
Flamingo G2 NeurIPS 2022
BLIP-2 G2 ICML 2023
Kosmos-1 G2 arXiv 2023
LLaVA G3 NeurIPS 2023
MiniGPT-4 G3 arXiv 2023
InstructBLIP G3 NeurIPS 2023
Qwen-VL G3 arXiv 2023
LLaVA-1.5 G3 CVPR 2024
Gemini G4 arXiv 2023
InternVL G3 CVPR 2024
LLaVA-OneVision G4 arXiv 2024
Qwen2-VL G4 arXiv 2024
InternVL 2.5 G4 arXiv 2024
DeepSeek-VL2 G4 arXiv 2024
Qwen2.5-VL G4 arXiv 2025
InternVL3 G4 arXiv 2025
InternVL3.5 G4 arXiv 2025
Qwen3-VL G4 arXiv 2025
Modality Encoder
CLIP ICML 2021
SigLIP ICCV 2023
EVA-CLIP arXiv 2023
Input Projector
P-Former NeurIPS 2023

Token Reduction in ViTs (17)

Overview
Pruning
DynamicViT NeurIPS 2021
EViT ICLR 2022
Evo-ViT AAAI 2022
ATS ECCV 2022
AS-ViT IJCAI 2023
TPS CVPR 2023
Zero-TPrune CVPR 2024
STAR ICLR 2024
Frequency-Aware TR NeurIPS 2025
Token Cropr CVPR 2025
Merging
ToMe ICLR 2023
DTEM NeurIPS 2024
MCTF CVPR 2024
Pooling
TokenLearner NeurIPS 2021
Token Pooling WACV 2023
Hybrid
DiffRate ICCV 2023
Token Fusion (ToFu) WACV 2024

[CoViPAL] Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models

EMNLP 2025

2025 · bridge · efficient-vlm

Bridge EMNLP 2025 (Findings)

Zicong Tang, Ziyang Ma, … Zuchao Li, Lefei Zhang, Hai Zhao · Wuhan University / SJTU / Huawei

arXiv GitHub

한 줄 요약. 토큰 가지치기는 얕은 층(shallow layer)에서 약하다 — 아직 문맥(context)이 부족해 어떤 시각 토큰이 잉여인지 판단하기 어렵기 때문. CoViPAL은 "얕은 층에도 본질적으로 잉여 토큰이 많고, 적절한 문맥 신호만 있으면 안전하게 자를 수 있다"고 보고, PPM(Plug-and-Play Pruning Module) 이라는 가볍고 model-agnostic한 분류기를 둔다. PPM이 LVLM이 토큰을 처리하기 전에 잉여 시각 토큰을 예측해 제거 — LVLM 아키텍처와 독립이라 여러 모델에 그대로 붙는다. PPM은 2단계로 학습(training-based). 동일 토큰 예산에서 training-free 방법들을 능가하고, 비슷한 지도(supervision)의 training-based 방법들도 앞선다(이미지·비디오 모두).

배경

LVLM은 이미지 한 장이 수천 개 시각 토큰을 만들어, prefilling 연산과 디코딩 메모리가 비싸다. 가지치기로 잉여를 줄이지만 —

얕은 층의 딜레마 — 깊은 층에선 문맥이 쌓여 중요도 판단이 쉽지만, 얕은 층에선 아직 문맥이 부족해 어떤 토큰이 잉여인지 알기 어렵다. 그래서 기존 방법은 얕은 층 가지치기에서 불안정.
하지만 잉여는 얕은 층에도 있다 — 저자 주장: 얕은 층에도 본질적 잉여가 많고, 문맥 신호를 따로 주면 안전하게 자를 수 있다.

그럼 얕은 층에서도 쓸 수 있도록, 문맥을 반영해 “이 토큰이 잉여인지” 예측하는 가벼운 모듈을 LVLM 앞에 두면 되지 않을까?

Figure 1. CoViPAL 추론 단계. 비전 인코더·projector가 만든 시각 토큰과 텍스트 토큰을 가벼운 Classifier(PPM)가 받아 남길 토큰을 선별 → 선별된 토큰만 concat해 LLM으로. PPM은 LVLM과 독립(model-agnostic).

핵심 아이디어

① PPM — 문맥 기반 가지치기 모듈

Plug-and-Play Pruning Module — 가볍고 model-agnostic한 분류기. 시각·텍스트 토큰을 받아 문맥을 반영해 각 시각 토큰이 잉여인지 예측하고, LVLM이 처리하기 전에 제거. 얕은 층에서도 동작한다.

② layer-wise contextualized · 2단계 학습

층별(layer-wise)로 문맥화된 가지치기를 수행. PPM은 2단계 학습 전략으로 훈련(training-based) — 그래서 training-free 방법보다 같은 예산에서 더 정확하고, LVLM 본체는 그대로라 통합이 매끄럽다.

학습 — PPM을 학습해야 하므로 training-based. 다만 LVLM과 독립적이라 본체 재학습은 불필요, 여러 모델에 이식 가능.

적용·평가

항목	내용
적용 모델	LLaVA-OneVision(7B-Chat) 등 LVLM (PPM은 model-agnostic)
데이터셋	이미지(GQA · MME · SEED · MMStar · AI2D · OCRBench · TextVQA · InfoVQA 등) + 비디오 벤치마크
Task	Image·Video Understanding
대표 결과	동일 토큰 예산에서 training-free 가지치기 능가 + training-based도 앞섬 · reserve 0.5에서 평균 97.5%, 0.25에서 89.8%(LLaVA-OV-7B)

결과

정량

두 계열 모두 능가 — 같은 토큰 예산에서 training-free(FastV·SparseVLM·PDrop)와 training-based(PDrop*) 양쪽을 앞선다 — reserve 0.5에서 평균 97.5%, 0.25에서 89.8%.
이미지+비디오 — 이미지(Table 1)와 비디오(Table 2) 벤치 모두에서 효율-정확도 균형이 좋고, prefilling 오버헤드·디코딩 속도·메모리(Table 3·4)도 개선.

한 줄 정리 & 의의

“얕은 층에서도 자를 수 있게” — 문맥을 예측하는 가벼운 PPM을 LVLM 앞에 둔다. model-agnostic·2단계 학습으로, 같은 예산에서 training-free·based 양쪽을 능가.
차별점. 대부분의 가지치기가 attention/유사도 휴리스틱(training-free)이거나 본체에 강결합된 학습 모듈인 데 비해, CoViPAL은 독립적·이식 가능한 학습형 모듈(PPM)로 얕은 층 문맥 부족 문제를 정면으로 푼다.
위치. Bridge — 인코더 출력과 LLM 사이(LVLM 처리 전)에서 줄인다. → Efficient VLM 개요