Overview
Encoder
ToMe ICLR 2023
MADTP CVPR 2024
CrossGET ICML 2024
VLTP WACV 2025
VisionZip CVPR 2025
FastVLM CVPR 2025
Bridge
LLaVA-PruMerge ICCV 2025
Recoverable Compression AAAI 2025
DivPrune CVPR 2025
CDPruner NeurIPS 2025
CoViPAL EMNLP 2025
LLM
FastV ECCV 2024
SparseVLM ICML 2025
PyramidDrop CVPR 2025
ATP-LLaVA CVPR 2025
DART EMNLP 2025
TopV CVPR 2025
Encoder+LLM
IVTP ECCV 2024

Overview
VLM
BLIP G1 ICML 2022
Flamingo G2 NeurIPS 2022
BLIP-2 G2 ICML 2023
Kosmos-1 G2 arXiv 2023
LLaVA G3 NeurIPS 2023
MiniGPT-4 G3 arXiv 2023
InstructBLIP G3 NeurIPS 2023
Qwen-VL G3 arXiv 2023
LLaVA-1.5 G3 CVPR 2024
Gemini G4 arXiv 2023
InternVL G3 CVPR 2024
LLaVA-OneVision G4 arXiv 2024
Qwen2-VL G4 arXiv 2024
InternVL 2.5 G4 arXiv 2024
DeepSeek-VL2 G4 arXiv 2024
Qwen2.5-VL G4 arXiv 2025
InternVL3 G4 arXiv 2025
InternVL3.5 G4 arXiv 2025
Qwen3-VL G4 arXiv 2025
Modality Encoder
CLIP ICML 2021
SigLIP ICCV 2023
EVA-CLIP arXiv 2023
Input Projector
P-Former NeurIPS 2023

Token Reduction in ViTs (17)

Overview
Pruning
DynamicViT NeurIPS 2021
EViT ICLR 2022
Evo-ViT AAAI 2022
ATS ECCV 2022
AS-ViT IJCAI 2023
TPS CVPR 2023
Zero-TPrune CVPR 2024
STAR ICLR 2024
Frequency-Aware TR NeurIPS 2025
Token Cropr CVPR 2025
Merging
ToMe ICLR 2023
DTEM NeurIPS 2024
MCTF CVPR 2024
Pooling
TokenLearner NeurIPS 2021
Token Pooling WACV 2023
Hybrid
DiffRate ICCV 2023
Token Fusion (ToFu) WACV 2024

[VisionZip] Longer is Better but Not Necessary in Vision Language Models

CVPR 2025

2024 · encoder-side · efficient-vlm

Encoder CVPR 2025

Senqiao Yang, Yukang Chen, … Jiaya Jia · CUHK / HKUST / HITSZ

arXiv GitHub

한 줄 요약. CLIP·SigLIP 같은 비전 인코더가 내놓는 시각 토큰엔 중복이 매우 많다는 관찰("길수록 좋지만 꼭 필요하진 않다"). VisionZip은 인코더 출력에서 ① attention을 많이 받아 정보를 응집한 dominant 토큰 몇 개만 고르고 ② 작은 디테일을 놓치지 않도록 나머지를 유사도로 병합한 contextual 토큰을 더해, LLM에 넣을 토큰을 확 줄인다. 질문(text)을 안 보는 text-agnostic·training-free(선택적 projector fine-tune 30분). prefilling 8× 가속에 성능 95% 유지(LLaVA-NeXT-7B), SOTA(FastV·SparseVLM) 대비 ≥5%↑. text-agnostic이라 멀티턴 대화에서 특히 강하다.

배경

VLM은 성능을 위해 시각 토큰을 늘렸지만(텍스트보다 훨씬 길어짐) 그만큼 비싸진다. VisionZip의 출발점은 단순한 관찰이다.

인코더 출력의 중복 — CLIP/SigLIP가 만든 시각 토큰은 상당수가 중복이다. 소수의 토큰이 이미지 정보를 대부분 응집한다.
text-guided의 약점 — SparseVLM·Recoverable처럼 질문에 맞춰 자르는 방법은, 질문이 바뀌는 멀티턴 대화에선 처음 질문 기준으로 잘려 후속 질문에 약하다.

그럼 질문에 의존하지 말고, 인코더 단계에서 정보가 풍부한 토큰만 골라내면(게다가 학습 없이) 어떨까?

Figure 2. VisionZip. 비전 인코더 출력에서 attention을 많이 받는 dominant 토큰을 고르고(정보 응집), 남은 토큰은 유사도로 병합해 contextual 토큰으로 압축한다. 질문을 보지 않는 text-agnostic 방식.

핵심 아이디어

① Dominant Token Selection

선택한 인코더 층의 attention에서 가장 많은 주목을 받는 K개 토큰(top-K)을 고른다 — 이들이 이미지 정보를 대부분 응집한다. (CLS attention 기반, 의사코드로 간단)

② Contextual Token Merging

dominant만 쓰면 작지만 중요한 디테일을 놓칠 수 있어, 남은 토큰을 유사도로 병합해 소수의 contextual 토큰으로 만들어 보탠다.

text-agnostic — 질문을 안 본다 → 한 번 압축한 시각 토큰을 여러 턴에 재사용 가능(멀티턴 강점). text-guided 방법이 약한 지점.
학습 — 기본 training-free. 토큰 수가 줄며 생기는 약간의 정렬 어긋남은, 원하면 projector만 30분 fine-tune해 보정(또는 from-scratch).

적용·평가

항목	내용
적용 모델	LLaVA-1.5 · LLaVA-NeXT(7B/13B) · Mini-Gemini · Video-LLaVA(비디오)
이미지 데이터셋	GQA · MMBench · MME · MMVet · POPE · SEED · ScienceQA · TextVQA · VQAv2
비디오 데이터셋	TGIF-QA · MSVD-QA · ActivityNet-QA
Task	Image·Video Understanding + 멀티턴 대화(real-world)
대표 결과	SOTA(FastV·SparseVLM) 대비 ≥5%↑ · prefilling 8× 가속·성능 95% 유지(LLaVA-NeXT-7B) · LLaVA-NeXT-13B가 7B보다 빠르고 더 정확

결과

Table 1. LLaVA-1.5에서 VisionZip 성능. 원본 시각 토큰 576개를 크게 줄여도(각 방법 윗줄=토큰 수) 정확도를 거의 유지.

LLaVA-1.5 — 시각 토큰 576개를 약 10%만 남겨도 11개 벤치 평균 ~95% 성능, SOTA(FastV·SparseVLM) 대비 ≥5%↑.
속도 — LLaVA-NeXT-7B prefilling 8× 가속. GPU 추론 시간이 줄어 LLaVA-NeXT-13B가 7B보다 빠르면서 더 정확.
일반화 — LLaVA-NeXT(7B/13B)·Mini-Gemini·Video-LLaVA로 확장돼도 유지.

한 줄 정리 & 의의

“시각 토큰은 길 필요 없다” — 인코더 출력에서 dominant + contextual 토큰만. 질문을 안 보는 text-agnostic·training-free라 멀티턴에 강하다.
차별점. SparseVLM·Recoverable이 질문 가이드라면, VisionZip은 text-agnostic(인코더 단계) — 같은 시각 토큰을 여러 질문/턴에 재사용. 저자는 “토큰 길이를 늘리기보다 더 좋은 시각 특징을 뽑자“고 제안.
위치. Encoder — 비전 인코더 출력에서 LLM에 넣기 전에 줄인다. → Efficient VLM 개요