[CoViPAL] Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models
Zicong Tang, Ziyang Ma, … Zuchao Li, Lefei Zhang, Hai Zhao · Wuhan University / SJTU / Huawei
한 줄 요약. 토큰 가지치기는 얕은 층(shallow layer)에서 약하다 — 아직 문맥(context)이 부족해 어떤 시각 토큰이 잉여인지 판단하기 어렵기 때문. CoViPAL은 "얕은 층에도 본질적으로 잉여 토큰이 많고, 적절한 문맥 신호만 있으면 안전하게 자를 수 있다"고 보고, PPM(Plug-and-Play Pruning Module) 이라는 가볍고 model-agnostic한 분류기를 둔다. PPM이 LVLM이 토큰을 처리하기 전에 잉여 시각 토큰을 예측해 제거 — LVLM 아키텍처와 독립이라 여러 모델에 그대로 붙는다. PPM은 2단계로 학습(training-based). 동일 토큰 예산에서 training-free 방법들을 능가하고, 비슷한 지도(supervision)의 training-based 방법들도 앞선다(이미지·비디오 모두).
배경
LVLM은 이미지 한 장이 수천 개 시각 토큰을 만들어, prefilling 연산과 디코딩 메모리가 비싸다. 가지치기로 잉여를 줄이지만 —
- 얕은 층의 딜레마 — 깊은 층에선 문맥이 쌓여 중요도 판단이 쉽지만, 얕은 층에선 아직 문맥이 부족해 어떤 토큰이 잉여인지 알기 어렵다. 그래서 기존 방법은 얕은 층 가지치기에서 불안정.
- 하지만 잉여는 얕은 층에도 있다 — 저자 주장: 얕은 층에도 본질적 잉여가 많고, 문맥 신호를 따로 주면 안전하게 자를 수 있다.
그럼 얕은 층에서도 쓸 수 있도록, 문맥을 반영해 “이 토큰이 잉여인지” 예측하는 가벼운 모듈을 LVLM 앞에 두면 되지 않을까?
핵심 아이디어
Plug-and-Play Pruning Module — 가볍고 model-agnostic한 분류기. 시각·텍스트 토큰을 받아 문맥을 반영해 각 시각 토큰이 잉여인지 예측하고, LVLM이 처리하기 전에 제거. 얕은 층에서도 동작한다.
층별(layer-wise)로 문맥화된 가지치기를 수행. PPM은 2단계 학습 전략으로 훈련(training-based) — 그래서 training-free 방법보다 같은 예산에서 더 정확하고, LVLM 본체는 그대로라 통합이 매끄럽다.
- 학습 — PPM을 학습해야 하므로 training-based. 다만 LVLM과 독립적이라 본체 재학습은 불필요, 여러 모델에 이식 가능.
적용·평가
| 항목 | 내용 |
|---|---|
| 적용 모델 | LLaVA-OneVision(7B-Chat) 등 LVLM (PPM은 model-agnostic) |
| 데이터셋 | 이미지(GQA · MME · SEED · MMStar · AI2D · OCRBench · TextVQA · InfoVQA 등) + 비디오 벤치마크 |
| Task | Image·Video Understanding |
| 대표 결과 | 동일 토큰 예산에서 training-free 가지치기 능가 + training-based도 앞섬 · reserve 0.5에서 평균 97.5%, 0.25에서 89.8%(LLaVA-OV-7B) |
결과
정량
- 두 계열 모두 능가 — 같은 토큰 예산에서 training-free(FastV·SparseVLM·PDrop)와 training-based(PDrop*) 양쪽을 앞선다 — reserve 0.5에서 평균 97.5%, 0.25에서 89.8%.
- 이미지+비디오 — 이미지(Table 1)와 비디오(Table 2) 벤치 모두에서 효율-정확도 균형이 좋고, prefilling 오버헤드·디코딩 속도·메모리(Table 3·4)도 개선.
한 줄 정리 & 의의
- “얕은 층에서도 자를 수 있게” — 문맥을 예측하는 가벼운 PPM을 LVLM 앞에 둔다. model-agnostic·2단계 학습으로, 같은 예산에서 training-free·based 양쪽을 능가.
- 차별점. 대부분의 가지치기가 attention/유사도 휴리스틱(training-free)이거나 본체에 강결합된 학습 모듈인 데 비해, CoViPAL은 독립적·이식 가능한 학습형 모듈(PPM)로 얕은 층 문맥 부족 문제를 정면으로 푼다.
- 위치. Bridge — 인코더 출력과 LLM 사이(LVLM 처리 전)에서 줄인다. → Efficient VLM 개요