[PyramidDrop] Accelerating Large Vision-Language Models via Pyramid Visual Redundancy Reduction

LLM CVPR 2025

Long Xing, Qidong Huang, … Dahua Lin · USTC / Shanghai AI Lab / CUHK

arXiv GitHub

한 줄 요약. 얕은 층에선 모든 시각 토큰이 필요하지만 깊을수록 중복이 커진다는 실증 관찰에서 출발. LLM을 여러 stage로 나눠 각 stage 끝에서 일정 비율씩 점진적으로 시각 토큰을 버린다(피라미드 모양). 어느 토큰을 남길지는 가벼운 attention 유사도로 랭킹(오버헤드 거의 없음). LLaVA-NeXT에서 학습 시간 40%↓, 추론 FLOPs 55%↓(성능 유지) — 학습·추론 모두 가속하고, plug-and-play 추론으로 쓰면 FastV보다 우수.

배경

LVLM은 고해상도·긴 비디오일수록 시각 토큰이 제곱으로 늘어 학습·추론이 비싸다. 기존 축소는 LLM 이전 또는 초기 층에서 잘라 중요한 정보를 잃기 쉬웠다.

  • 실증 관찰 — 시각 토큰을 여러 층에서 비율을 바꿔 제거해보니, 얕은 층은 토큰 제거에 민감(많이 자르면 성능 급락)하지만 깊은 층은 점점 둔감해진다. LVLM은 이미지를 층을 거치며 점진적으로 이해한다.

그렇다면 얕은 층은 다 살리고, 깊어질수록 더 많이 버리는 게 맞지 않을까?

Figure 2. PyramidDrop 파이프라인. LLM forward를 여러 stage로 나누고, 얕은 stage엔 시각 토큰을 많이 남기되 각 stage 끝에서 일정 비율씩 버려, 깊은 층에선 거의 사라지는 '피라미드' 형태.

핵심 아이디어

① 단계별 점진 드롭 (Pyramid)

LLM을 여러 stage로 분할, 각 stage 에서 미리 정한 비율만큼 시각 토큰을 버린다. 얕은 층=다 유지(정보 손실 방지), 깊은 층=거의 제거(효율 극대화).

② 가벼운 랭킹

각 stage에서 가벼운 attention 모듈로 텍스트가 주목하는 중요한 시각 토큰을 랭킹해 남긴다. 추가 오버헤드가 거의 없다.

  • 학습·추론 모두 — 학습 가속(중복 토큰을 학습 단계부터 제거)과 추론 가속을 동시에. plug-and-play로 추론에만 끼울 수도 있다(이때 FastV보다 좋은 성능·낮은 비용).
  • 고해상도 친화 — 같은 비용으로 LLaVA-NeXT를 2배 해상도로 학습 가능 → DocVQA·InfoVQA 같은 고해상도 벤치마크에서 향상.

적용·평가

항목 내용
적용 모델 LLaVA-1.5 · LLaVA-NeXT-7B (Vicuna 백본)
데이터셋 16개 VL 벤치마크 — TextVQA · GQA · VQAv2 · MME · MMBench · SEED · POPE · ScienceQA · AI2D · ChartQA · VizWiz + 고해상도 DocVQA · InfoVQA
Task 일반 VQA · 문서/고해상도 이해 · 환각(POPE) · 종합(MME·SEED) — 학습·추론 양쪽 가속
대표 결과 LLaVA-NeXT-7B 학습 시간 40%↓ · 추론 FLOPs 55%↓(성능 유지) · plug-and-play 추론 시 FastV 능가

결과

정량

Table 2. 같은 image-token 예산에서 효율적 추론 전략 비교. 평균 토큰을 적게 남기고도(Ratio) PyramidDrop이 ToMe·FastV·SparseVLM보다 높은 평균 성능을 유지.
  • 학습·추론 양쪽 가속 — LLaVA-NeXT-7B에서 추론 FLOPs 55%↓·학습시간 40%↓, 성능 유지.
  • 동급 대비 우수 — 같은 토큰 예산에서 ToMe·FastV·SparseVLM보다 높은 평균(Table 2), plug-and-play 추론으로도 FastV 능가(Table 1).
  • 고해상도 이득 — 같은 비용으로 2배 해상도 학습이 가능 → DocVQA·InfoVQA 향상.

정성

Figure 1. 층별 시각 중복 관찰. (왼쪽) 깊은 층에서 시각 토큰을 많이 줄여도 TextVQA 성능이 유지된다. (오른쪽) 깊은 층일수록 attention이 소수 핵심 영역에 집중 — 깊을수록 더 버려도 된다는 피라미드 설계의 근거.
  • 층이 깊을수록 중복↑(Fig 1). 얕은 층은 attention이 넓게 퍼져 많은 토큰이 필요하지만, 깊은 층일수록 핵심 영역에 집중돼 대부분 토큰이 잉여가 된다 — 단계별 점진 드롭의 직접 근거.

한 줄 정리 & 의의

  • 층이 깊을수록 더 버리는 “피라미드” 토큰 축소. 얕은 층은 보존, stage마다 점진 드롭 → 학습·추론 모두 가속.
  • 차별점. FastV가 한 층에서 한 번 자른다면, PyramidDrop은 여러 stage에 걸쳐 점진적으로 자르고 학습까지 가속(고해상도 학습을 싸게).
  • 위치. LLM — LLM 디코더 내부 단계별로 줄인다. → Efficient VLM 개요