Overview
Encoder
ToMe ICLR 2023
MADTP CVPR 2024
CrossGET ICML 2024
VLTP WACV 2025
VisionZip CVPR 2025
FastVLM CVPR 2025
Bridge
LLaVA-PruMerge ICCV 2025
Recoverable Compression AAAI 2025
DivPrune CVPR 2025
CDPruner NeurIPS 2025
CoViPAL EMNLP 2025
LLM
FastV ECCV 2024
SparseVLM ICML 2025
PyramidDrop CVPR 2025
ATP-LLaVA CVPR 2025
DART EMNLP 2025
TopV CVPR 2025
Encoder+LLM
IVTP ECCV 2024

Overview
VLM
BLIP G1 ICML 2022
Flamingo G2 NeurIPS 2022
BLIP-2 G2 ICML 2023
Kosmos-1 G2 arXiv 2023
LLaVA G3 NeurIPS 2023
MiniGPT-4 G3 arXiv 2023
InstructBLIP G3 NeurIPS 2023
Qwen-VL G3 arXiv 2023
LLaVA-1.5 G3 CVPR 2024
Gemini G4 arXiv 2023
InternVL G3 CVPR 2024
LLaVA-OneVision G4 arXiv 2024
Qwen2-VL G4 arXiv 2024
InternVL 2.5 G4 arXiv 2024
DeepSeek-VL2 G4 arXiv 2024
Qwen2.5-VL G4 arXiv 2025
InternVL3 G4 arXiv 2025
InternVL3.5 G4 arXiv 2025
Qwen3-VL G4 arXiv 2025
Modality Encoder
CLIP ICML 2021
SigLIP ICCV 2023
EVA-CLIP arXiv 2023
Input Projector
P-Former NeurIPS 2023

Token Reduction in ViTs (17)

Overview
Pruning
DynamicViT NeurIPS 2021
EViT ICLR 2022
Evo-ViT AAAI 2022
ATS ECCV 2022
AS-ViT IJCAI 2023
TPS CVPR 2023
Zero-TPrune CVPR 2024
STAR ICLR 2024
Frequency-Aware TR NeurIPS 2025
Token Cropr CVPR 2025
Merging
ToMe ICLR 2023
DTEM NeurIPS 2024
MCTF CVPR 2024
Pooling
TokenLearner NeurIPS 2021
Token Pooling WACV 2023
Hybrid
DiffRate ICCV 2023
Token Fusion (ToFu) WACV 2024

[PyramidDrop] Accelerating Large Vision-Language Models via Pyramid Visual Redundancy Reduction

CVPR 2025

2024 · llm-side · efficient-vlm

LLM CVPR 2025

Long Xing, Qidong Huang, … Dahua Lin · USTC / Shanghai AI Lab / CUHK

arXiv GitHub

한 줄 요약. 얕은 층에선 모든 시각 토큰이 필요하지만 깊을수록 중복이 커진다는 실증 관찰에서 출발. LLM을 여러 stage로 나눠 각 stage 끝에서 일정 비율씩 점진적으로 시각 토큰을 버린다(피라미드 모양). 어느 토큰을 남길지는 가벼운 attention 유사도로 랭킹(오버헤드 거의 없음). LLaVA-NeXT에서 학습 시간 40%↓, 추론 FLOPs 55%↓(성능 유지) — 학습·추론 모두 가속하고, plug-and-play 추론으로 쓰면 FastV보다 우수.

배경

LVLM은 고해상도·긴 비디오일수록 시각 토큰이 제곱으로 늘어 학습·추론이 비싸다. 기존 축소는 LLM 이전 또는 초기 층에서 잘라 중요한 정보를 잃기 쉬웠다.

실증 관찰 — 시각 토큰을 여러 층에서 비율을 바꿔 제거해보니, 얕은 층은 토큰 제거에 민감(많이 자르면 성능 급락)하지만 깊은 층은 점점 둔감해진다. LVLM은 이미지를 층을 거치며 점진적으로 이해한다.

그렇다면 얕은 층은 다 살리고, 깊어질수록 더 많이 버리는 게 맞지 않을까?

Figure 2. PyramidDrop 파이프라인. LLM forward를 여러 stage로 나누고, 얕은 stage엔 시각 토큰을 많이 남기되 각 stage 끝에서 일정 비율씩 버려, 깊은 층에선 거의 사라지는 '피라미드' 형태.

핵심 아이디어

① 단계별 점진 드롭 (Pyramid)

LLM을 여러 stage로 분할, 각 stage 끝에서 미리 정한 비율만큼 시각 토큰을 버린다. 얕은 층=다 유지(정보 손실 방지), 깊은 층=거의 제거(효율 극대화).

② 가벼운 랭킹

각 stage에서 가벼운 attention 모듈로 텍스트가 주목하는 중요한 시각 토큰을 랭킹해 남긴다. 추가 오버헤드가 거의 없다.

학습·추론 모두 — 학습 가속(중복 토큰을 학습 단계부터 제거)과 추론 가속을 동시에. plug-and-play로 추론에만 끼울 수도 있다(이때 FastV보다 좋은 성능·낮은 비용).
고해상도 친화 — 같은 비용으로 LLaVA-NeXT를 2배 해상도로 학습 가능 → DocVQA·InfoVQA 같은 고해상도 벤치마크에서 향상.

적용·평가

항목	내용
적용 모델	LLaVA-1.5 · LLaVA-NeXT-7B (Vicuna 백본)
데이터셋	16개 VL 벤치마크 — TextVQA · GQA · VQAv2 · MME · MMBench · SEED · POPE · ScienceQA · AI2D · ChartQA · VizWiz + 고해상도 DocVQA · InfoVQA
Task	일반 VQA · 문서/고해상도 이해 · 환각(POPE) · 종합(MME·SEED) — 학습·추론 양쪽 가속
대표 결과	LLaVA-NeXT-7B 학습 시간 40%↓ · 추론 FLOPs 55%↓(성능 유지) · plug-and-play 추론 시 FastV 능가

결과

정량

Table 2. 같은 image-token 예산에서 효율적 추론 전략 비교. 평균 토큰을 적게 남기고도(Ratio) PyramidDrop이 ToMe·FastV·SparseVLM보다 높은 평균 성능을 유지.

학습·추론 양쪽 가속 — LLaVA-NeXT-7B에서 추론 FLOPs 55%↓·학습시간 40%↓, 성능 유지.
동급 대비 우수 — 같은 토큰 예산에서 ToMe·FastV·SparseVLM보다 높은 평균(Table 2), plug-and-play 추론으로도 FastV 능가(Table 1).
고해상도 이득 — 같은 비용으로 2배 해상도 학습이 가능 → DocVQA·InfoVQA 향상.

정성

Figure 1. 층별 시각 중복 관찰. (왼쪽) 깊은 층에서 시각 토큰을 많이 줄여도 TextVQA 성능이 유지된다. (오른쪽) 깊은 층일수록 attention이 소수 핵심 영역에 집중 — 깊을수록 더 버려도 된다는 피라미드 설계의 근거.

층이 깊을수록 중복↑(Fig 1). 얕은 층은 attention이 넓게 퍼져 많은 토큰이 필요하지만, 깊은 층일수록 핵심 영역에 집중돼 대부분 토큰이 잉여가 된다 — 단계별 점진 드롭의 직접 근거.

한 줄 정리 & 의의

층이 깊을수록 더 버리는 “피라미드” 토큰 축소. 얕은 층은 보존, stage마다 점진 드롭 → 학습·추론 모두 가속.
차별점. FastV가 한 층에서 한 번 자른다면, PyramidDrop은 여러 stage에 걸쳐 점진적으로 자르고 학습까지 가속(고해상도 학습을 싸게).
위치. LLM — LLM 디코더 내부 단계별로 줄인다. → Efficient VLM 개요