Token Reduction — Overview
Pruning · Merging · Pooling · Hybrid · 관련 논문 17편
이 글은 Token Reduction 분야의 큰 그림을 잡기 위한 개요 노트다. 개별 논문 노트로 들어가기 전에, 무엇을 줄이는 것인지 · 어떤 방식들이 있는지 · 논문들이 어떻게 발전해 왔는지를 한눈에 정리한다.
Token Reduction이란?
Vision Transformer(ViT)는 이미지를 패치 단위 토큰 시퀀스로 만들어 처리한다. 그런데 토큰 수 N이 늘어나면 self-attention 비용이 O(N²), MLP 비용이 O(N)으로 커진다. Token Reduction은 덜 중요한 토큰을 버리거나, 비슷한 토큰을 합치거나, 소수의 대표 토큰으로 요약해서 $N$을 줄이고 연산량을 낮추는 기법들을 통칭한다.
핵심 관찰: ViT의 최종 예측은 모든 패치 토큰을 똑같이 필요로 하지 않는다. 일부 informative한 토큰만으로도 충분한 경우가 많다.
Channel Pruning vs Token Pruning
흔히 헷갈리는 두 축을 먼저 구분하자.
Channel pruning
줄이는 축: feature 차원 C
모든 위치는 보되, 덜 중요한 특징 검출기를 없앰
Token pruning 이 노트
줄이는 축: 토큰/패치 길이 N
이미지에서 덜 중요한 위치를 안 봄
즉, 이 노트가 다루는 건 후자 — 토큰(위치) 축을 줄이는 방법들이다.
4가지 타입 (택소노미)
중요도 점수가 낮은 토큰을 버린다. 가장 직관적이지만, 잘못 버리면 정보 손실(특히 dense task)이 크다.
예: DynamicViT, EViT, ATS, STAR
비슷한 토큰끼리 합친다. 버리는 것보다 정보 손실이 적고 training-free로도 가능.
예: ToMe, DTEM, MCTF
전체 토큰을 소수의 대표/학습 토큰으로 요약한다.
예: TokenLearner, Token Pooling
Pruning과 Merging을 함께 쓴다. 버릴 건 버리고, 남길 것 중 비슷한 건 합친다.
예: DiffRate, Token Fusion(ToFu)
경계는 칼같지 않다. “pruned merging”(이름은 merging이지만 사실상 하나를 버림)처럼 한 방법 안에서 여러 전략이 섞이기도 한다.
관련 논문 17편 한눈에 보기
| # | 논문 | Venue | Type | 핵심 아이디어 |
|---|---|---|---|---|
| 1 | DynamicViT | NeurIPS 2021 | Pruning | 입력마다 prediction module로 redundant 토큰을 동적으로 제거 |
| 2 | TokenLearner | NeurIPS 2021 | Pooling | attention map으로 소수(8~16개)의 learned 토큰을 생성 |
| 3 | EViT | ICLR 2022 | Pruning | CLS attention 상위 토큰은 유지, 나머지는 1개로 fusion |
| 4 | Evo-ViT | AAAI 2022 | Pruning | 안 버리고 informative/placeholder로 나눠 slow-fast 업데이트 |
| 5 | ATS | ECCV 2022 | Pruning | 입력·stage마다 토큰 수를 적응적으로(attention 기반 샘플링) |
| 6 | Adaptive Sparse ViT | IJCAI 2023 | Pruning | learned threshold로 keep/prune, head importance 반영 |
| 7 | ToMe | ICLR 2023 | Merging | Bipartite Soft Matching으로 비슷한 토큰 r개 합침, training-free |
| 8 | DiffRate | ICCV 2023 | Hybrid | pruning·merging rate를 미분가능하게 자동 학습 |
| 9 | TPS | CVPR 2023 | Pruning | pruned 토큰을 가장 비슷한 kept 토큰에 squeeze(정보 보존) |
| 10 | Token Pooling | WACV 2023 | Pooling | k-means/K-medoids로 대표 토큰 근사(top-k 편향 보완) |
| 11 | Zero-TPrune | CVPR 2024 | Pruning | attention graph + Weighted PageRank로 학습 없이(zero-shot) pruning |
| 12 | DTEM | NeurIPS 2024 | Merging | merging 전용 decoupled embedding을 따로 학습 |
| 13 | Token Fusion (ToFu) | WACV 2024 | Hybrid | functional linearity에 따라 layer별 pruning↔merging 전환(MLERP) |
| 14 | STAR | ICLR 2024 | Pruning | intra-layer + inter-layer(LRP) importance 결합 |
| 15 | MCTF | CVPR 2024 | Merging | similarity × informativeness × size 다기준 fusion + one-step-ahead attention |
| 16 | Frequency-Aware TR | NeurIPS 2025 | Pruning | high-freq는 보존, low-freq는 DC 토큰으로 aggregate |
| 17 | Token Cropr | CVPR 2025 | Pruning | task-specific aux head로 dense task(seg/det)까지 학습 기반 pruning |
큰 흐름 & 인사이트
중요도 기준의 진화
prediction module(DynamicViT)·CLS attention(EViT, Evo-ViT) → head importance(Adaptive Sparse ViT), attention graph + PageRank(Zero-TPrune), inter-layer relevance(STAR) 등 더 전역적인 신호로.
버리기 → 합치기 → 결합
"버리면 정보가 날아간다" → Merging(ToMe)·squeeze(TPS) → 둘을 함께 쓰는 Hybrid(DiffRate, ToFu)로 수렴.
heuristic → learnable
keep ratio·compression rate를 사람이 정하던 것에서 → threshold·rate를 학습으로(Adaptive Sparse ViT, DiffRate).
training-free
ToMe·Zero-TPrune은 재학습 없이 바로 적용 → edge·여러 압축비 환경에 유리.
classification → dense task
분류 중심에서 seg/det로 확장(DiffRate, DTEM, Frequency-Aware, Token Cropr). dense task는 토큰 제거가 더 위험.
frequency 관점
ViT는 깊어질수록 over-smoothing → Frequency-Aware TR은 high-frequency 정보를 보존하며 축소.
이후 각 논문의 배경 · 핵심 아이디어 · 방법 · 결과는 개별 노트로 정리한다. (작성되는 대로 이 표의 논문명에서 링크를 연결할 예정.)