Token Reduction — Overview

Pruning · Merging · Pooling · Hybrid · 관련 논문 17편

이 글은 Token Reduction 분야의 큰 그림을 잡기 위한 개요 노트다. 개별 논문 노트로 들어가기 전에, 무엇을 줄이는 것인지 · 어떤 방식들이 있는지 · 논문들이 어떻게 발전해 왔는지를 한눈에 정리한다.

Token Reduction이란?

Vision Transformer(ViT)는 이미지를 패치 단위 토큰 시퀀스로 만들어 처리한다. 그런데 토큰 수 N이 늘어나면 self-attention 비용이 O(N²), MLP 비용이 O(N)으로 커진다. Token Reduction은 덜 중요한 토큰을 버리거나, 비슷한 토큰을 합치거나, 소수의 대표 토큰으로 요약해서 $N$을 줄이고 연산량을 낮추는 기법들을 통칭한다.

핵심 관찰: ViT의 최종 예측은 모든 패치 토큰을 똑같이 필요로 하지 않는다. 일부 informative한 토큰만으로도 충분한 경우가 많다.

Channel Pruning vs Token Pruning

흔히 헷갈리는 두 축을 먼저 구분하자.

Channel pruning

줄이는 축: feature 차원 C

모든 위치는 보되, 덜 중요한 특징 검출기를 없앰

Token pruning 이 노트

줄이는 축: 토큰/패치 길이 N

이미지에서 덜 중요한 위치를 안 봄

즉, 이 노트가 다루는 건 후자 — 토큰(위치) 축을 줄이는 방법들이다.

4가지 타입 (택소노미)

Pruning · 제거

중요도 점수가 낮은 토큰을 버린다. 가장 직관적이지만, 잘못 버리면 정보 손실(특히 dense task)이 크다.

예: DynamicViT, EViT, ATS, STAR

Merging · 병합

비슷한 토큰끼리 합친다. 버리는 것보다 정보 손실이 적고 training-free로도 가능.

예: ToMe, DTEM, MCTF

Pooling · 요약/학습

전체 토큰을 소수의 대표/학습 토큰으로 요약한다.

예: TokenLearner, Token Pooling

Hybrid · 결합

Pruning과 Merging을 함께 쓴다. 버릴 건 버리고, 남길 것 중 비슷한 건 합친다.

예: DiffRate, Token Fusion(ToFu)

경계는 칼같지 않다. “pruned merging”(이름은 merging이지만 사실상 하나를 버림)처럼 한 방법 안에서 여러 전략이 섞이기도 한다.

관련 논문 17편 한눈에 보기

#	논문	Venue	Type	핵심 아이디어
1	DynamicViT	NeurIPS 2021	Pruning	입력마다 prediction module로 redundant 토큰을 동적으로 제거
2	TokenLearner	NeurIPS 2021	Pooling	attention map으로 소수(8~16개)의 learned 토큰을 생성
3	EViT	ICLR 2022	Pruning	CLS attention 상위 토큰은 유지, 나머지는 1개로 fusion
4	Evo-ViT	AAAI 2022	Pruning	안 버리고 informative/placeholder로 나눠 slow-fast 업데이트
5	ATS	ECCV 2022	Pruning	입력·stage마다 토큰 수를 적응적으로(attention 기반 샘플링)
6	Adaptive Sparse ViT	IJCAI 2023	Pruning	learned threshold로 keep/prune, head importance 반영
7	ToMe	ICLR 2023	Merging	Bipartite Soft Matching으로 비슷한 토큰 r개 합침, training-free
8	DiffRate	ICCV 2023	Hybrid	pruning·merging rate를 미분가능하게 자동 학습
9	TPS	CVPR 2023	Pruning	pruned 토큰을 가장 비슷한 kept 토큰에 squeeze(정보 보존)
10	Token Pooling	WACV 2023	Pooling	k-means/K-medoids로 대표 토큰 근사(top-k 편향 보완)
11	Zero-TPrune	CVPR 2024	Pruning	attention graph + Weighted PageRank로 학습 없이(zero-shot) pruning
12	DTEM	NeurIPS 2024	Merging	merging 전용 decoupled embedding을 따로 학습
13	Token Fusion (ToFu)	WACV 2024	Hybrid	functional linearity에 따라 layer별 pruning↔merging 전환(MLERP)
14	STAR	ICLR 2024	Pruning	intra-layer + inter-layer(LRP) importance 결합
15	MCTF	CVPR 2024	Merging	similarity × informativeness × size 다기준 fusion + one-step-ahead attention
16	Frequency-Aware TR	NeurIPS 2025	Pruning	high-freq는 보존, low-freq는 DC 토큰으로 aggregate
17	Token Cropr	CVPR 2025	Pruning	task-specific aux head로 dense task(seg/det)까지 학습 기반 pruning

큰 흐름 & 인사이트

중요도 기준의 진화

prediction module(DynamicViT)·CLS attention(EViT, Evo-ViT) → head importance(Adaptive Sparse ViT), attention graph + PageRank(Zero-TPrune), inter-layer relevance(STAR) 등 더 전역적인 신호로.

버리기 → 합치기 → 결합

"버리면 정보가 날아간다" → Merging(ToMe)·squeeze(TPS) → 둘을 함께 쓰는 Hybrid(DiffRate, ToFu)로 수렴.

heuristic → learnable

keep ratio·compression rate를 사람이 정하던 것에서 → threshold·rate를 학습으로(Adaptive Sparse ViT, DiffRate).

training-free

ToMe·Zero-TPrune은 재학습 없이 바로 적용 → edge·여러 압축비 환경에 유리.

classification → dense task

분류 중심에서 seg/det로 확장(DiffRate, DTEM, Frequency-Aware, Token Cropr). dense task는 토큰 제거가 더 위험.

frequency 관점

ViT는 깊어질수록 over-smoothing → Frequency-Aware TR은 high-frequency 정보를 보존하며 축소.

이후 각 논문의 배경 · 핵심 아이디어 · 방법 · 결과는 개별 노트로 정리한다. (작성되는 대로 이 표의 논문명에서 링크를 연결할 예정.)