Token Reduction — Overview

Pruning · Merging · Pooling · Hybrid · 관련 논문 17편

이 글은 Token Reduction 분야의 큰 그림을 잡기 위한 개요 노트다. 개별 논문 노트로 들어가기 전에, 무엇을 줄이는 것인지 · 어떤 방식들이 있는지 · 논문들이 어떻게 발전해 왔는지를 한눈에 정리한다.

Token Reduction이란?

Vision Transformer(ViT)는 이미지를 패치 단위 토큰 시퀀스로 만들어 처리한다. 그런데 토큰 수 N이 늘어나면 self-attention 비용이 O(N²), MLP 비용이 O(N)으로 커진다. Token Reduction덜 중요한 토큰을 버리거나, 비슷한 토큰을 합치거나, 소수의 대표 토큰으로 요약해서 $N$을 줄이고 연산량을 낮추는 기법들을 통칭한다.

핵심 관찰: ViT의 최종 예측은 모든 패치 토큰을 똑같이 필요로 하지 않는다. 일부 informative한 토큰만으로도 충분한 경우가 많다.

Channel Pruning vs Token Pruning

흔히 헷갈리는 두 축을 먼저 구분하자.

Channel pruning

줄이는 축: feature 차원 C

모든 위치는 보되, 덜 중요한 특징 검출기를 없앰

Token pruning 이 노트

줄이는 축: 토큰/패치 길이 N

이미지에서 덜 중요한 위치를 안 봄

즉, 이 노트가 다루는 건 후자 — 토큰(위치) 축을 줄이는 방법들이다.

4가지 타입 (택소노미)

토큰 압축 방식 비교 — Pruning(제거) · Merging(병합) · Pooling(요약/학습)의 동작 원리와 핵심 기여.
Pruning · 제거

중요도 점수가 낮은 토큰을 버린다. 가장 직관적이지만, 잘못 버리면 정보 손실(특히 dense task)이 크다.

예: DynamicViT, EViT, ATS, STAR

Merging · 병합

비슷한 토큰끼리 합친다. 버리는 것보다 정보 손실이 적고 training-free로도 가능.

예: ToMe, DTEM, MCTF

Pooling · 요약/학습

전체 토큰을 소수의 대표/학습 토큰으로 요약한다.

예: TokenLearner, Token Pooling

Hybrid · 결합

Pruning과 Merging을 함께 쓴다. 버릴 건 버리고, 남길 것 중 비슷한 건 합친다.

예: DiffRate, Token Fusion(ToFu)

경계는 칼같지 않다. “pruned merging”(이름은 merging이지만 사실상 하나를 버림)처럼 한 방법 안에서 여러 전략이 섞이기도 한다.

관련 논문 17편 한눈에 보기

# 논문 Venue Type 핵심 아이디어
1 DynamicViT NeurIPS 2021 Pruning 입력마다 prediction module로 redundant 토큰을 동적으로 제거
2 TokenLearner NeurIPS 2021 Pooling attention map으로 소수(8~16개)의 learned 토큰을 생성
3 EViT ICLR 2022 Pruning CLS attention 상위 토큰은 유지, 나머지는 1개로 fusion
4 Evo-ViT AAAI 2022 Pruning 안 버리고 informative/placeholder로 나눠 slow-fast 업데이트
5 ATS ECCV 2022 Pruning 입력·stage마다 토큰 수를 적응적으로(attention 기반 샘플링)
6 Adaptive Sparse ViT IJCAI 2023 Pruning learned threshold로 keep/prune, head importance 반영
7 ToMe ICLR 2023 Merging Bipartite Soft Matching으로 비슷한 토큰 r개 합침, training-free
8 DiffRate ICCV 2023 Hybrid pruning·merging rate를 미분가능하게 자동 학습
9 TPS CVPR 2023 Pruning pruned 토큰을 가장 비슷한 kept 토큰에 squeeze(정보 보존)
10 Token Pooling WACV 2023 Pooling k-means/K-medoids로 대표 토큰 근사(top-k 편향 보완)
11 Zero-TPrune CVPR 2024 Pruning attention graph + Weighted PageRank로 학습 없이(zero-shot) pruning
12 DTEM NeurIPS 2024 Merging merging 전용 decoupled embedding을 따로 학습
13 Token Fusion (ToFu) WACV 2024 Hybrid functional linearity에 따라 layer별 pruning↔merging 전환(MLERP)
14 STAR ICLR 2024 Pruning intra-layer + inter-layer(LRP) importance 결합
15 MCTF CVPR 2024 Merging similarity × informativeness × size 다기준 fusion + one-step-ahead attention
16 Frequency-Aware TR NeurIPS 2025 Pruning high-freq는 보존, low-freq는 DC 토큰으로 aggregate
17 Token Cropr CVPR 2025 Pruning task-specific aux head로 dense task(seg/det)까지 학습 기반 pruning

큰 흐름 & 인사이트

중요도 기준의 진화

prediction module(DynamicViT)·CLS attention(EViT, Evo-ViT) → head importance(Adaptive Sparse ViT), attention graph + PageRank(Zero-TPrune), inter-layer relevance(STAR) 등 더 전역적인 신호로.

버리기 → 합치기 → 결합

"버리면 정보가 날아간다" → Merging(ToMe)·squeeze(TPS) → 둘을 함께 쓰는 Hybrid(DiffRate, ToFu)로 수렴.

heuristic → learnable

keep ratio·compression rate를 사람이 정하던 것에서 → threshold·rate를 학습으로(Adaptive Sparse ViT, DiffRate).

training-free

ToMe·Zero-TPrune은 재학습 없이 바로 적용 → edge·여러 압축비 환경에 유리.

classification → dense task

분류 중심에서 seg/det로 확장(DiffRate, DTEM, Frequency-Aware, Token Cropr). dense task는 토큰 제거가 더 위험.

frequency 관점

ViT는 깊어질수록 over-smoothing → Frequency-Aware TR은 high-frequency 정보를 보존하며 축소.


이후 각 논문의 배경 · 핵심 아이디어 · 방법 · 결과는 개별 노트로 정리한다. (작성되는 대로 이 표의 논문명에서 링크를 연결할 예정.)