[ATP-LLaVA] Adaptive Token Pruning for Large Vision Language Models

LLM CVPR 2025

Xubing Ye, Yukang Gan, Yixiao Ge, Xiao-Ping Zhang, Yansong Tang · Tsinghua University / Tencent ARC Lab

arXiv Project

한 줄 요약. LLM 디코더 안에서 시각 토큰을 자르는 방법들은 대개 미리 정한 고정 비율로 자른다. 그런데 얼마나 잘라도 되는지는 LLM 층마다, 그리고 입력(이미지-프롬프트) 인스턴스마다 다르다. ATP-LLaVA는 이를 적응적으로 — ATP(Adaptive Token Pruning) 모듈이 입력 인스턴스에 따라 중요도 점수와 가지치기 임계값을 계산해 층별·인스턴스별 압축률을 정한다(LLM 임의의 두 층 사이에 삽입, 오버헤드 미미). 추가로 SAP(Spatial Augmented Pruning) 로 토큰 중복뿐 아니라 공간 구조까지 고려해 자른다. ATP 모듈을 학습(training 필요). 평균 토큰 75%↓에 7개 벤치 1.9%만 하락.

배경

LVLM은 긴 시각 토큰 때문에 자원이 부족한 기기에서 비싸다. 기존 LLM-side 가지치기는 디코더 층의 중복을 관찰해 토큰을 잘랐지만 —

  • 고정 비율의 한계 — 미리 정한(predefined/fixed) 비율로 모든 층·모든 입력에 똑같이 자른다.
  • 하지만 영향은 다르다 — 같은 비율이라도 층마다, 인스턴스(이미지-프롬프트)마다 성능 영향이 다르다. 따라서 층별·인스턴스별로 다른 비율이 필요하다.

그럼 비율을 고정하지 말고, 입력과 층에 맞춰 “얼마나 자를지”를 적응적으로 정하면 안 될까?

Figure 2. ATP-LLaVA. ATP 모듈을 LLM 층 사이에 삽입해 인스턴스별 중요도·임계값을 계산하고 층마다 다른 압축률을 적응적으로 정한다. SAP는 토큰 중복 + 공간 모델링 관점으로 가지치기.

핵심 아이디어

① ATP 모듈 — 인스턴스·층별 적응 비율

입력 인스턴스에 따라 중요도 점수와 가지치기 임계값을 계산해, 각 LLM 층에서 자를 비율을 적응적으로 결정. 임의의 두 층 사이에 끼울 수 있고 추가 연산은 미미하다.

② SAP — 공간 보강 가지치기

Spatial Augmented Pruning — 토큰 중복만 보지 않고 공간 구조(spatial modeling) 관점도 함께 반영해 어떤 토큰을 남길지 정한다.

  • 학습 — ATP 모듈(중요도·임계값 산출)을 학습해야 하므로 training-free가 아니다(training 필요).

적용·평가

항목 내용
적용 모델 LLaVA(LLaVA-1.5)
데이터셋 7개 벤치마크 — GQA · MMBench · MME · POPE · SEED · ScienceQA · TextVQA 등
Task Image Understanding
대표 결과 평균 토큰 75%↓ 유지 · 7개 벤치 평균 1.9% 하락

결과

Table 1. LLM 디코더 내 토큰 가지치기 비교. ATP-LLaVA는 평균 토큰을 75% 줄이면서 7개 벤치 98.1% 성능을 유지.
  • 압축·정확도 — LLaVA-1.5에서 평균 토큰 75%↓에 7개 벤치 98.1%(평균 1.9%↓) 유지.
  • 효율(Table 6) — KV 캐시 메모리·CUDA 시간·FLOPs 모두 감소.
  • 적응의 가치(Table 2) — 같은 학습 설정에서 고정 비율 전략 대비 우수 → “층·인스턴스별 적응 비율”이 실제로 이득.

한 줄 정리 & 의의

  • “얼마나 자를지”를 층·인스턴스별로 적응 결정. 고정 비율 대신 ATP 모듈로 입력에 맞춘 압축률 + SAP로 공간까지 고려 → 토큰 75%↓에 1.9% 하락.
  • 차별점. FastV·PyramidDrop이 (대체로) 정해진 비율/스케줄로 자른다면, ATP-LLaVA는 인스턴스·층별 적응 비율을 학습한다(그 대가로 training 필요).
  • 위치. LLM — LLM 디코더 층 사이에서 줄인다. → Efficient VLM 개요