Overview
Encoder
ToMe ICLR 2023
MADTP CVPR 2024
CrossGET ICML 2024
VLTP WACV 2025
VisionZip CVPR 2025
FastVLM CVPR 2025
Bridge
LLaVA-PruMerge ICCV 2025
Recoverable Compression AAAI 2025
DivPrune CVPR 2025
CDPruner NeurIPS 2025
CoViPAL EMNLP 2025
LLM
FastV ECCV 2024
SparseVLM ICML 2025
PyramidDrop CVPR 2025
ATP-LLaVA CVPR 2025
DART EMNLP 2025
TopV CVPR 2025
Encoder+LLM
IVTP ECCV 2024

Overview
VLM
BLIP G1 ICML 2022
Flamingo G2 NeurIPS 2022
BLIP-2 G2 ICML 2023
Kosmos-1 G2 arXiv 2023
LLaVA G3 NeurIPS 2023
MiniGPT-4 G3 arXiv 2023
InstructBLIP G3 NeurIPS 2023
Qwen-VL G3 arXiv 2023
LLaVA-1.5 G3 CVPR 2024
Gemini G4 arXiv 2023
InternVL G3 CVPR 2024
LLaVA-OneVision G4 arXiv 2024
Qwen2-VL G4 arXiv 2024
InternVL 2.5 G4 arXiv 2024
DeepSeek-VL2 G4 arXiv 2024
Qwen2.5-VL G4 arXiv 2025
InternVL3 G4 arXiv 2025
InternVL3.5 G4 arXiv 2025
Qwen3-VL G4 arXiv 2025
Modality Encoder
CLIP ICML 2021
SigLIP ICCV 2023
EVA-CLIP arXiv 2023
Input Projector
P-Former NeurIPS 2023

Token Reduction in ViTs (17)

Overview
Pruning
DynamicViT NeurIPS 2021
EViT ICLR 2022
Evo-ViT AAAI 2022
ATS ECCV 2022
AS-ViT IJCAI 2023
TPS CVPR 2023
Zero-TPrune CVPR 2024
STAR ICLR 2024
Frequency-Aware TR NeurIPS 2025
Token Cropr CVPR 2025
Merging
ToMe ICLR 2023
DTEM NeurIPS 2024
MCTF CVPR 2024
Pooling
TokenLearner NeurIPS 2021
Token Pooling WACV 2023
Hybrid
DiffRate ICCV 2023
Token Fusion (ToFu) WACV 2024

[Recoverable Compression] A Multimodal Vision Token Recovery Mechanism Guided by Text Information

AAAI 2025

2024 · bridge · efficient-vlm

Bridge AAAI 2025

Yi Chen, Jian Xu, … Cheng-Lin Liu · UCAS / CASIA (MAIS)

arXiv GitHub

한 줄 요약. 순수 시각만 보고 자르면 답에 필요한 토큰을 과하게 버린다(oversimplification). Recoverable Compression은 LLM에 넣기 전(브리지) 단계에서 "버린 뒤 되살리는" 3단계 — ① ViT의 CLS 토큰 유사도로 1차 필터링 ② 버려진 토큰 중 질문 텍스트와 유사도가 높은 것을 다시 복구(recover) ③ 남은 덜 중요한 토큰은 병합. 동적 스케일 필터링으로 토큰 수를 정한다. training-free. 시각 토큰을 평균 원본의 ~10%로 줄이면서 성능은 원모델과 대등. (가지치기를 넘어 2차 복구를 넣은 게 정체성.)

배경

LMM은 시각 특징을 LLM에 넣어 쓰므로 시각 토큰 수가 곧 속도다. ViT 토큰 가지치기는 많지만, LMM에 그대로 쓰면 문제가 있다.

순수 시각 기반의 위험 — 시각 정보만으로 자르면 질문에 꼭 필요한 토큰까지 버리는 과압축이 생긴다.
질문엔 단서가 있다 — 질문(텍스트)은 “무엇을 봐야 하는지”에 대한 추가 지식을 담고 있다. 이를 쓰면 어떤 시각 토큰을 살려야 할지 알 수 있다.

그럼 일단 줄이되, 질문과 관련된 토큰은 다시 되살리고(recover) 나머지는 합치면, 적은 토큰으로도 답에 필요한 정보를 지킬 수 있지 않을까?

Figure 2. Recoverable Compression. CLS 유사도로 1차 필터 → 질문 텍스트와 유사한 토큰을 버려진 것들 중에서 복구 → 남은 토큰 병합. 학습 없이 질문을 단서로 '버리고 되살린다'.

핵심 — 3단계

① CLS 기반 1차 필터

ViT의 CLS 토큰(이미지 전역 표현)과 각 시각 토큰의 유사도로 일단 중요한 토큰을 추린다.

② 텍스트 가이드 복구(recover)

1차에서 버려진 토큰 중, 질문 텍스트와 유사도가 높은 토큰을 다시 되살린다 — 순수 시각 기준이 놓친 "답에 필요한" 토큰을 회수.

③ 나머지 병합 (merge)

끝까지 덜 중요한 토큰은 버리지 않고 병합해 정보 손실을 줄인다. 동적 스케일 필터링으로 유지 개수를 정함.

학습 — 추가 파라미터·fine-tuning 없는 training-free(plug-and-play).
정체성 — 다른 가지치기와 달리 버린 뒤 2차로 되살리는(recover) 단계를 둔 게 핵심. (텍스트 가이드라는 점에서 SparseVLM과 한 계열.)

적용·평가

항목	내용
적용 모델	LLaVA-1.5
데이터셋	GQA · MMBench · MME · POPE · ScienceQA · TextVQA · VQAv2 · VizWiz
Task	Image Understanding (VQA · OCR · 환각 · 종합)
대표 결과	시각 토큰 평균 원본의 ~10%로 압축하면서 원모델과 대등한 성능

결과

정량

Table 4. LLaVA-1.5에서 토큰을 평균 ~10%까지 압축해도 8개 벤치(GQA·MMB·MME·POPE·SQA·TextVQA·VQAv2·VizWiz) 정확도가 원모델과 대등.

압축률 — 시각 토큰을 평균 원본의 ~10%로 줄여도 원모델과 대등.
같은 비율 비교(Table 2) — 비슷한 토큰 수에서 기존 가지치기 대비 우수 — 특히 질문 단서가 중요한 OCR형(TextVQA)·ScienceQA에서 복구 효과가 두드러진다.

정성

Figure 3. 시각 분석. 순수 시각(CLS) 필터가 버린 토큰 중 질문과 관련된 영역이 복구되어 남는 모습 — 답에 필요한 토큰이 회수된다.

복구의 효과(Fig 3). CLS 기반 1차 필터가 놓친 질문 관련 영역의 토큰이 2차 복구로 되살아남을 시각적으로 확인 — “버린 뒤 되살린다”가 실제로 답 영역을 지켜낸다.

한 줄 정리 & 의의

“버리고 되살린다” — 질문 가이드 복구로 과압축을 막는 토큰 압축. ①CLS 1차 필터 ②텍스트 유사 토큰 복구 ③나머지 병합, 학습 없이 ~10%까지.
차별점. 대부분 버리기만 하는데, Recoverable은 2차 복구로 답에 필요한 토큰을 회수한다. LLM 전(브리지)에서 동작하며 질문을 단서로 쓴다(텍스트 가이드 계열 = SparseVLM과 유사, 다만 복구 중심).
위치. Bridge — 인코더와 LLM 사이에서 줄이되 텍스트로 복구. → Efficient VLM 개요