[CoViPAL] Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models

Bridge EMNLP 2025 (Findings)

Zicong Tang, Ziyang Ma, … Zuchao Li, Lefei Zhang, Hai Zhao · Wuhan University / SJTU / Huawei

arXiv GitHub

한 줄 요약. 토큰 가지치기는 얕은 층(shallow layer)에서 약하다 — 아직 문맥(context)이 부족해 어떤 시각 토큰이 잉여인지 판단하기 어렵기 때문. CoViPAL은 "얕은 층에도 본질적으로 잉여 토큰이 많고, 적절한 문맥 신호만 있으면 안전하게 자를 수 있다"고 보고, PPM(Plug-and-Play Pruning Module) 이라는 가볍고 model-agnostic한 분류기를 둔다. PPM이 LVLM이 토큰을 처리하기 전에 잉여 시각 토큰을 예측해 제거 — LVLM 아키텍처와 독립이라 여러 모델에 그대로 붙는다. PPM은 2단계로 학습(training-based). 동일 토큰 예산에서 training-free 방법들을 능가하고, 비슷한 지도(supervision)의 training-based 방법들도 앞선다(이미지·비디오 모두).

배경

LVLM은 이미지 한 장이 수천 개 시각 토큰을 만들어, prefilling 연산과 디코딩 메모리가 비싸다. 가지치기로 잉여를 줄이지만 —

  • 얕은 층의 딜레마 — 깊은 층에선 문맥이 쌓여 중요도 판단이 쉽지만, 얕은 층에선 아직 문맥이 부족해 어떤 토큰이 잉여인지 알기 어렵다. 그래서 기존 방법은 얕은 층 가지치기에서 불안정.
  • 하지만 잉여는 얕은 층에도 있다 — 저자 주장: 얕은 층에도 본질적 잉여가 많고, 문맥 신호를 따로 주면 안전하게 자를 수 있다.

그럼 얕은 층에서도 쓸 수 있도록, 문맥을 반영해 “이 토큰이 잉여인지” 예측하는 가벼운 모듈을 LVLM 앞에 두면 되지 않을까?

Figure 1. CoViPAL 추론 단계. 비전 인코더·projector가 만든 시각 토큰과 텍스트 토큰을 가벼운 Classifier(PPM)가 받아 남길 토큰을 선별 → 선별된 토큰만 concat해 LLM으로. PPM은 LVLM과 독립(model-agnostic).

핵심 아이디어

① PPM — 문맥 기반 가지치기 모듈

Plug-and-Play Pruning Module — 가볍고 model-agnostic한 분류기. 시각·텍스트 토큰을 받아 문맥을 반영해 각 시각 토큰이 잉여인지 예측하고, LVLM이 처리하기 전에 제거. 얕은 층에서도 동작한다.

② layer-wise contextualized · 2단계 학습

층별(layer-wise)로 문맥화된 가지치기를 수행. PPM은 2단계 학습 전략으로 훈련(training-based) — 그래서 training-free 방법보다 같은 예산에서 더 정확하고, LVLM 본체는 그대로라 통합이 매끄럽다.

  • 학습 — PPM을 학습해야 하므로 training-based. 다만 LVLM과 독립적이라 본체 재학습은 불필요, 여러 모델에 이식 가능.

적용·평가

항목 내용
적용 모델 LLaVA-OneVision(7B-Chat) 등 LVLM (PPM은 model-agnostic)
데이터셋 이미지(GQA · MME · SEED · MMStar · AI2D · OCRBench · TextVQA · InfoVQA 등) + 비디오 벤치마크
Task Image·Video Understanding
대표 결과 동일 토큰 예산에서 training-free 가지치기 능가 + training-based도 앞섬 · reserve 0.5에서 평균 97.5%, 0.25에서 89.8%(LLaVA-OV-7B)

결과

정량

Table 1. 이미지 벤치마크 결과(LLaVA-OV-7B). reserve ratio 0.5·0.25에서 CoViPAL이 FastV·SparseVLM·PyramidDrop(training-free/based)보다 높은 평균 성능을 유지. PDrop*=PyramidDrop의 training-based 버전.
  • 두 계열 모두 능가 — 같은 토큰 예산에서 training-free(FastV·SparseVLM·PDrop)와 training-based(PDrop*) 양쪽을 앞선다 — reserve 0.5에서 평균 97.5%, 0.25에서 89.8%.
  • 이미지+비디오 — 이미지(Table 1)와 비디오(Table 2) 벤치 모두에서 효율-정확도 균형이 좋고, prefilling 오버헤드·디코딩 속도·메모리(Table 3·4)도 개선.

한 줄 정리 & 의의

  • “얕은 층에서도 자를 수 있게” — 문맥을 예측하는 가벼운 PPM을 LVLM 앞에 둔다. model-agnostic·2단계 학습으로, 같은 예산에서 training-free·based 양쪽을 능가.
  • 차별점. 대부분의 가지치기가 attention/유사도 휴리스틱(training-free)이거나 본체에 강결합된 학습 모듈인 데 비해, CoViPAL은 독립적·이식 가능한 학습형 모듈(PPM)로 얕은 층 문맥 부족 문제를 정면으로 푼다.
  • 위치. Bridge — 인코더 출력과 LLM 사이(LVLM 처리 전)에서 줄인다. → Efficient VLM 개요