[ATP-LLaVA] Adaptive Token Pruning for Large Vision Language Models
Xubing Ye, Yukang Gan, Yixiao Ge, Xiao-Ping Zhang, Yansong Tang · Tsinghua University / Tencent ARC Lab
한 줄 요약. LLM 디코더 안에서 시각 토큰을 자르는 방법들은 대개 미리 정한 고정 비율로 자른다. 그런데 얼마나 잘라도 되는지는 LLM 층마다, 그리고 입력(이미지-프롬프트) 인스턴스마다 다르다. ATP-LLaVA는 이를 적응적으로 — ATP(Adaptive Token Pruning) 모듈이 입력 인스턴스에 따라 중요도 점수와 가지치기 임계값을 계산해 층별·인스턴스별 압축률을 정한다(LLM 임의의 두 층 사이에 삽입, 오버헤드 미미). 추가로 SAP(Spatial Augmented Pruning) 로 토큰 중복뿐 아니라 공간 구조까지 고려해 자른다. ATP 모듈을 학습(training 필요). 평균 토큰 75%↓에 7개 벤치 1.9%만 하락.
배경
LVLM은 긴 시각 토큰 때문에 자원이 부족한 기기에서 비싸다. 기존 LLM-side 가지치기는 디코더 층의 중복을 관찰해 토큰을 잘랐지만 —
- 고정 비율의 한계 — 미리 정한(predefined/fixed) 비율로 모든 층·모든 입력에 똑같이 자른다.
- 하지만 영향은 다르다 — 같은 비율이라도 층마다, 인스턴스(이미지-프롬프트)마다 성능 영향이 다르다. 따라서 층별·인스턴스별로 다른 비율이 필요하다.
그럼 비율을 고정하지 말고, 입력과 층에 맞춰 “얼마나 자를지”를 적응적으로 정하면 안 될까?
핵심 아이디어
입력 인스턴스에 따라 중요도 점수와 가지치기 임계값을 계산해, 각 LLM 층에서 자를 비율을 적응적으로 결정. 임의의 두 층 사이에 끼울 수 있고 추가 연산은 미미하다.
Spatial Augmented Pruning — 토큰 중복만 보지 않고 공간 구조(spatial modeling) 관점도 함께 반영해 어떤 토큰을 남길지 정한다.
- 학습 — ATP 모듈(중요도·임계값 산출)을 학습해야 하므로 training-free가 아니다(training 필요).
적용·평가
| 항목 | 내용 |
|---|---|
| 적용 모델 | LLaVA(LLaVA-1.5) |
| 데이터셋 | 7개 벤치마크 — GQA · MMBench · MME · POPE · SEED · ScienceQA · TextVQA 등 |
| Task | Image Understanding |
| 대표 결과 | 평균 토큰 75%↓ 유지 · 7개 벤치 평균 1.9% 하락 |
결과
- 압축·정확도 — LLaVA-1.5에서 평균 토큰 75%↓에 7개 벤치 98.1%(평균 1.9%↓) 유지.
- 효율(Table 6) — KV 캐시 메모리·CUDA 시간·FLOPs 모두 감소.
- 적응의 가치(Table 2) — 같은 학습 설정에서 고정 비율 전략 대비 우수 → “층·인스턴스별 적응 비율”이 실제로 이득.
한 줄 정리 & 의의
- “얼마나 자를지”를 층·인스턴스별로 적응 결정. 고정 비율 대신 ATP 모듈로 입력에 맞춘 압축률 + SAP로 공간까지 고려 → 토큰 75%↓에 1.9% 하락.
- 차별점. FastV·PyramidDrop이 (대체로) 정해진 비율/스케줄로 자른다면, ATP-LLaVA는 인스턴스·층별 적응 비율을 학습한다(그 대가로 training 필요).
- 위치. LLM — LLM 디코더 층 사이에서 줄인다. → Efficient VLM 개요