[PyramidDrop] Accelerating Large Vision-Language Models via Pyramid Visual Redundancy Reduction
LLM CVPR 2025
Long Xing, Qidong Huang, … Dahua Lin · USTC / Shanghai AI Lab / CUHK
한 줄 요약. 얕은 층에선 모든 시각 토큰이 필요하지만 깊을수록 중복이 커진다는 실증 관찰에서 출발. LLM을 여러 stage로 나눠 각 stage 끝에서 일정 비율씩 점진적으로 시각 토큰을 버린다(피라미드 모양). 어느 토큰을 남길지는 가벼운 attention 유사도로 랭킹(오버헤드 거의 없음). LLaVA-NeXT에서 학습 시간 40%↓, 추론 FLOPs 55%↓(성능 유지) — 학습·추론 모두 가속하고, plug-and-play 추론으로 쓰면 FastV보다 우수.
배경
LVLM은 고해상도·긴 비디오일수록 시각 토큰이 제곱으로 늘어 학습·추론이 비싸다. 기존 축소는 LLM 이전 또는 초기 층에서 잘라 중요한 정보를 잃기 쉬웠다.
- 실증 관찰 — 시각 토큰을 여러 층에서 비율을 바꿔 제거해보니, 얕은 층은 토큰 제거에 민감(많이 자르면 성능 급락)하지만 깊은 층은 점점 둔감해진다. LVLM은 이미지를 층을 거치며 점진적으로 이해한다.
그렇다면 얕은 층은 다 살리고, 깊어질수록 더 많이 버리는 게 맞지 않을까?
핵심 아이디어
① 단계별 점진 드롭 (Pyramid)
LLM을 여러 stage로 분할, 각 stage 끝에서 미리 정한 비율만큼 시각 토큰을 버린다. 얕은 층=다 유지(정보 손실 방지), 깊은 층=거의 제거(효율 극대화).
② 가벼운 랭킹
각 stage에서 가벼운 attention 모듈로 텍스트가 주목하는 중요한 시각 토큰을 랭킹해 남긴다. 추가 오버헤드가 거의 없다.
- 학습·추론 모두 — 학습 가속(중복 토큰을 학습 단계부터 제거)과 추론 가속을 동시에. plug-and-play로 추론에만 끼울 수도 있다(이때 FastV보다 좋은 성능·낮은 비용).
- 고해상도 친화 — 같은 비용으로 LLaVA-NeXT를 2배 해상도로 학습 가능 → DocVQA·InfoVQA 같은 고해상도 벤치마크에서 향상.
적용·평가
| 항목 | 내용 |
|---|---|
| 적용 모델 | LLaVA-1.5 · LLaVA-NeXT-7B (Vicuna 백본) |
| 데이터셋 | 16개 VL 벤치마크 — TextVQA · GQA · VQAv2 · MME · MMBench · SEED · POPE · ScienceQA · AI2D · ChartQA · VizWiz + 고해상도 DocVQA · InfoVQA |
| Task | 일반 VQA · 문서/고해상도 이해 · 환각(POPE) · 종합(MME·SEED) — 학습·추론 양쪽 가속 |
| 대표 결과 | LLaVA-NeXT-7B 학습 시간 40%↓ · 추론 FLOPs 55%↓(성능 유지) · plug-and-play 추론 시 FastV 능가 |
결과
정량
- 학습·추론 양쪽 가속 — LLaVA-NeXT-7B에서 추론 FLOPs 55%↓·학습시간 40%↓, 성능 유지.
- 동급 대비 우수 — 같은 토큰 예산에서 ToMe·FastV·SparseVLM보다 높은 평균(Table 2), plug-and-play 추론으로도 FastV 능가(Table 1).
- 고해상도 이득 — 같은 비용으로 2배 해상도 학습이 가능 → DocVQA·InfoVQA 향상.
정성
- 층이 깊을수록 중복↑(Fig 1). 얕은 층은 attention이 넓게 퍼져 많은 토큰이 필요하지만, 깊은 층일수록 핵심 영역에 집중돼 대부분 토큰이 잉여가 된다 — 단계별 점진 드롭의 직접 근거.
한 줄 정리 & 의의
- 층이 깊을수록 더 버리는 “피라미드” 토큰 축소. 얕은 층은 보존, stage마다 점진 드롭 → 학습·추론 모두 가속.
- 차별점. FastV가 한 층에서 한 번 자른다면, PyramidDrop은 여러 stage에 걸쳐 점진적으로 자르고 학습까지 가속(고해상도 학습을 싸게).
- 위치. LLM — LLM 디코더 내부 단계별로 줄인다. → Efficient VLM 개요