[MADTP] Multimodal Alignment-Guided Dynamic Token Pruning for Accelerating Vision-Language Transformer
Encoder CVPR 2024
Jianjian Cao, Peng Ye, … Tao Chen · Fudan University / Tsinghua University
한 줄 요약. Vision-Language Transformer(VLT, 예: BLIP·CLIP) 인코더 안에서 시각·언어 토큰을 가지치기한다. 기존 토큰 가지치기는 한 모달리티만 보고 잘라 다른 모달리티엔 중요한 토큰을 잘못 버렸는데, MADTP는 두 가지로 푼다 — ① MAG(Multi-modality Alignment Guidance): 비전·언어 분기 사이에서 같은 의미의 특징을 정렬해 "모든 모달리티에서 안 중요한" 토큰만 자르게 가이드. ② DTP(Dynamic Token Pruning): 레이어마다·입력마다 압축률을 동적으로 조절. BLIP/NLVR2에서 GFLOPs 80%↓, 성능 4% 미만 하락.
배경
VLT는 강력하지만 시각·언어 토큰이 많아 연산이 비싸다. 기존 VLT 토큰 가지치기엔 두 한계가 있었다.
- 단일 모달리티 기준 — 한 분기(예: 비전)에서만 중요도를 재서 자르면, 다른 분기(언어)엔 중요한 토큰을 잘못 버린다(STP, Static Token Pruning).
- 고정 압축률 — 입력 난이도와 무관하게 층마다 같은 비율로 잘라 유연성이 없다.
모달리티를 정렬해서 “양쪽 모두에서 안 중요한” 토큰을 고르고, 입력마다 동적으로 비율을 정하면 안 될까?
핵심 아이디어
① MAG — 모달리티 정렬 가이드
비전·언어 분기 사이에 두고, learnable token으로 두 모달리티의 같은 의미 특징을 정렬. 그 정렬을 단서로 "양쪽 모두에서 안 중요한" 토큰을 식별해 가지치기를 가이드(한쪽만 보고 자르는 오류 방지).
② DTP — 동적 토큰 가지치기
각 Transformer 블록 안에서 레이어별·입력 인스턴스별로 압축률을 적응적으로 조절. 쉬운 샘플은 많이, 어려운 샘플은 적게 잘라 성능을 지킨다.
- 학습 — MAG의 learnable token과 정렬을 배우므로 fine-tuning이 필요하다(training-free 아님).
적용·평가
| 항목 | 내용 |
|---|---|
| 적용 모델 | CLIP · BLIP (비전 분기 ViT + 언어 분기 BERT인 VLT) |
| 데이터셋 | NLVR2 · COCO · Flickr30K · VQA v2.0 |
| Task | Visual Reasoning(NLVR2) · Image Captioning(COCO) · Image-Text Retrieval(Flickr30K·COCO) · VQA(VQA v2.0) |
| 대표 결과 | BLIP·NLVR2에서 GFLOPs 80%↓, 성능 4% 미만 하락 (UPop 능가) |
결과
- BLIP·NLVR2에서 GFLOPs 80%↓·성능 4% 미만 하락(UPop 능가). 여러 VLT·벤치에서 큰 FLOPs 절감에도 하락이 작다.
한 줄 정리 & 의의
- 모달리티 정렬로 가이드하는 동적 토큰 가지치기. ① MAG로 두 모달리티를 정렬해 “양쪽에서 안 중요한” 토큰만 자르고, ② DTP로 레이어·입력별 압축률을 동적 조절.
- 차별점. 단일 모달리티 기준의 정적 가지치기(STP)와 달리, cross-modal 정렬로 잘못 버리는 토큰을 줄이고 입력 적응적으로 압축.
- 위치. Encoder — VLT 인코더(비전·언어 분기) 안에서 줄인다. → Efficient VLM 개요