Overview
Encoder
ToMe ICLR 2023
MADTP CVPR 2024
CrossGET ICML 2024
VLTP WACV 2025
VisionZip CVPR 2025
FastVLM CVPR 2025
Bridge
LLaVA-PruMerge ICCV 2025
Recoverable Compression AAAI 2025
DivPrune CVPR 2025
CDPruner NeurIPS 2025
CoViPAL EMNLP 2025
LLM
FastV ECCV 2024
SparseVLM ICML 2025
PyramidDrop CVPR 2025
ATP-LLaVA CVPR 2025
DART EMNLP 2025
TopV CVPR 2025
Encoder+LLM
IVTP ECCV 2024

Overview
VLM
BLIP G1 ICML 2022
Flamingo G2 NeurIPS 2022
BLIP-2 G2 ICML 2023
Kosmos-1 G2 arXiv 2023
LLaVA G3 NeurIPS 2023
MiniGPT-4 G3 arXiv 2023
InstructBLIP G3 NeurIPS 2023
Qwen-VL G3 arXiv 2023
LLaVA-1.5 G3 CVPR 2024
Gemini G4 arXiv 2023
InternVL G3 CVPR 2024
LLaVA-OneVision G4 arXiv 2024
Qwen2-VL G4 arXiv 2024
InternVL 2.5 G4 arXiv 2024
DeepSeek-VL2 G4 arXiv 2024
Qwen2.5-VL G4 arXiv 2025
InternVL3 G4 arXiv 2025
InternVL3.5 G4 arXiv 2025
Qwen3-VL G4 arXiv 2025
Modality Encoder
CLIP ICML 2021
SigLIP ICCV 2023
EVA-CLIP arXiv 2023
Input Projector
P-Former NeurIPS 2023

Token Reduction in ViTs (17)

Overview
Pruning
DynamicViT NeurIPS 2021
EViT ICLR 2022
Evo-ViT AAAI 2022
ATS ECCV 2022
AS-ViT IJCAI 2023
TPS CVPR 2023
Zero-TPrune CVPR 2024
STAR ICLR 2024
Frequency-Aware TR NeurIPS 2025
Token Cropr CVPR 2025
Merging
ToMe ICLR 2023
DTEM NeurIPS 2024
MCTF CVPR 2024
Pooling
TokenLearner NeurIPS 2021
Token Pooling WACV 2023
Hybrid
DiffRate ICCV 2023
Token Fusion (ToFu) WACV 2024

[MADTP] Multimodal Alignment-Guided Dynamic Token Pruning for Accelerating Vision-Language Transformer

CVPR 2024

2024 · encoder-side · efficient-vlm

Encoder CVPR 2024

Jianjian Cao, Peng Ye, … Tao Chen · Fudan University / Tsinghua University

arXiv GitHub

한 줄 요약. Vision-Language Transformer(VLT, 예: BLIP·CLIP) 인코더 안에서 시각·언어 토큰을 가지치기한다. 기존 토큰 가지치기는 한 모달리티만 보고 잘라 다른 모달리티엔 중요한 토큰을 잘못 버렸는데, MADTP는 두 가지로 푼다 — ① MAG(Multi-modality Alignment Guidance): 비전·언어 분기 사이에서 같은 의미의 특징을 정렬해 "모든 모달리티에서 안 중요한" 토큰만 자르게 가이드. ② DTP(Dynamic Token Pruning): 레이어마다·입력마다 압축률을 동적으로 조절. BLIP/NLVR2에서 GFLOPs 80%↓, 성능 4% 미만 하락.

배경

VLT는 강력하지만 시각·언어 토큰이 많아 연산이 비싸다. 기존 VLT 토큰 가지치기엔 두 한계가 있었다.

단일 모달리티 기준 — 한 분기(예: 비전)에서만 중요도를 재서 자르면, 다른 분기(언어)엔 중요한 토큰을 잘못 버린다(STP, Static Token Pruning).
고정 압축률 — 입력 난이도와 무관하게 층마다 같은 비율로 잘라 유연성이 없다.

모달리티를 정렬해서 “양쪽 모두에서 안 중요한” 토큰을 고르고, 입력마다 동적으로 비율을 정하면 안 될까?

Figure 2. MADTP 구조. MAG 모듈은 비전·언어 분기 '사이'에서 두 모달리티 표현을 정렬해 가지치기를 가이드하고, DTP 모듈은 각 Transformer 블록 '안'에서 입력 복잡도에 따라 동적으로 토큰을 가지친다.

핵심 아이디어

① MAG — 모달리티 정렬 가이드

비전·언어 분기 사이에 두고, learnable token으로 두 모달리티의 같은 의미 특징을 정렬. 그 정렬을 단서로 "양쪽 모두에서 안 중요한" 토큰을 식별해 가지치기를 가이드(한쪽만 보고 자르는 오류 방지).

② DTP — 동적 토큰 가지치기

각 Transformer 블록 안에서 레이어별·입력 인스턴스별로 압축률을 적응적으로 조절. 쉬운 샘플은 많이, 어려운 샘플은 적게 잘라 성능을 지킨다.

학습 — MAG의 learnable token과 정렬을 배우므로 fine-tuning이 필요하다(training-free 아님).

적용·평가

항목	내용
적용 모델	CLIP · BLIP (비전 분기 ViT + 언어 분기 BERT인 VLT)
데이터셋	NLVR2 · COCO · Flickr30K · VQA v2.0
Task	Visual Reasoning(NLVR2) · Image Captioning(COCO) · Image-Text Retrieval(Flickr30K·COCO) · VQA(VQA v2.0)
대표 결과	BLIP·NLVR2에서 GFLOPs 80%↓, 성능 4% 미만 하락 (UPop 능가)

결과

Table 7. 여러 VLT·벤치마크에서 MADTP의 압축률 대비 성능. 큰 폭의 FLOPs 절감에도 성능 하락이 작다.

BLIP·NLVR2에서 GFLOPs 80%↓·성능 4% 미만 하락(UPop 능가). 여러 VLT·벤치에서 큰 FLOPs 절감에도 하락이 작다.

한 줄 정리 & 의의

모달리티 정렬로 가이드하는 동적 토큰 가지치기. ① MAG로 두 모달리티를 정렬해 “양쪽에서 안 중요한” 토큰만 자르고, ② DTP로 레이어·입력별 압축률을 동적 조절.
차별점. 단일 모달리티 기준의 정적 가지치기(STP)와 달리, cross-modal 정렬로 잘못 버리는 토큰을 줄이고 입력 적응적으로 압축.
위치. Encoder — VLT 인코더(비전·언어 분기) 안에서 줄인다. → Efficient VLM 개요