[VisionZip] Longer is Better but Not Necessary in Vision Language Models

Encoder CVPR 2025

Senqiao Yang, Yukang Chen, … Jiaya Jia · CUHK / HKUST / HITSZ

arXiv GitHub

한 줄 요약. CLIP·SigLIP 같은 비전 인코더가 내놓는 시각 토큰엔 중복이 매우 많다는 관찰("길수록 좋지만 꼭 필요하진 않다"). VisionZip은 인코더 출력에서 ① attention을 많이 받아 정보를 응집한 dominant 토큰 몇 개만 고르고 ② 작은 디테일을 놓치지 않도록 나머지를 유사도로 병합한 contextual 토큰을 더해, LLM에 넣을 토큰을 확 줄인다. 질문(text)을 안 보는 text-agnostic·training-free(선택적 projector fine-tune 30분). prefilling 8× 가속에 성능 95% 유지(LLaVA-NeXT-7B), SOTA(FastV·SparseVLM) 대비 ≥5%↑. text-agnostic이라 멀티턴 대화에서 특히 강하다.

배경

VLM은 성능을 위해 시각 토큰을 늘렸지만(텍스트보다 훨씬 길어짐) 그만큼 비싸진다. VisionZip의 출발점은 단순한 관찰이다.

  • 인코더 출력의 중복 — CLIP/SigLIP가 만든 시각 토큰은 상당수가 중복이다. 소수의 토큰이 이미지 정보를 대부분 응집한다.
  • text-guided의 약점SparseVLM·Recoverable처럼 질문에 맞춰 자르는 방법은, 질문이 바뀌는 멀티턴 대화에선 처음 질문 기준으로 잘려 후속 질문에 약하다.

그럼 질문에 의존하지 말고, 인코더 단계에서 정보가 풍부한 토큰만 골라내면(게다가 학습 없이) 어떨까?

Figure 2. VisionZip. 비전 인코더 출력에서 attention을 많이 받는 dominant 토큰을 고르고(정보 응집), 남은 토큰은 유사도로 병합해 contextual 토큰으로 압축한다. 질문을 보지 않는 text-agnostic 방식.

핵심 아이디어

① Dominant Token Selection

선택한 인코더 층의 attention에서 가장 많은 주목을 받는 K개 토큰(top-K)을 고른다 — 이들이 이미지 정보를 대부분 응집한다. (CLS attention 기반, 의사코드로 간단)

② Contextual Token Merging

dominant만 쓰면 작지만 중요한 디테일을 놓칠 수 있어, 남은 토큰을 유사도로 병합해 소수의 contextual 토큰으로 만들어 보탠다.

  • text-agnostic — 질문을 안 본다 → 한 번 압축한 시각 토큰을 여러 턴에 재사용 가능(멀티턴 강점). text-guided 방법이 약한 지점.
  • 학습 — 기본 training-free. 토큰 수가 줄며 생기는 약간의 정렬 어긋남은, 원하면 projector만 30분 fine-tune해 보정(또는 from-scratch).

적용·평가

항목 내용
적용 모델 LLaVA-1.5 · LLaVA-NeXT(7B/13B) · Mini-Gemini · Video-LLaVA(비디오)
이미지 데이터셋 GQA · MMBench · MME · MMVet · POPE · SEED · ScienceQA · TextVQA · VQAv2
비디오 데이터셋 TGIF-QA · MSVD-QA · ActivityNet-QA
Task Image·Video Understanding + 멀티턴 대화(real-world)
대표 결과 SOTA(FastV·SparseVLM) 대비 ≥5%↑ · prefilling 8× 가속·성능 95% 유지(LLaVA-NeXT-7B) · LLaVA-NeXT-13B가 7B보다 빠르고 더 정확

결과

Table 1. LLaVA-1.5에서 VisionZip 성능. 원본 시각 토큰 576개를 크게 줄여도(각 방법 윗줄=토큰 수) 정확도를 거의 유지.
  • LLaVA-1.5 — 시각 토큰 576개를 약 10%만 남겨도 11개 벤치 평균 ~95% 성능, SOTA(FastV·SparseVLM) 대비 ≥5%↑.
  • 속도 — LLaVA-NeXT-7B prefilling 8× 가속. GPU 추론 시간이 줄어 LLaVA-NeXT-13B가 7B보다 빠르면서 더 정확.
  • 일반화 — LLaVA-NeXT(7B/13B)·Mini-Gemini·Video-LLaVA로 확장돼도 유지.

한 줄 정리 & 의의

  • “시각 토큰은 길 필요 없다” — 인코더 출력에서 dominant + contextual 토큰만. 질문을 안 보는 text-agnostic·training-free라 멀티턴에 강하다.
  • 차별점. SparseVLM·Recoverable이 질문 가이드라면, VisionZip은 text-agnostic(인코더 단계) — 같은 시각 토큰을 여러 질문/턴에 재사용. 저자는 “토큰 길이를 늘리기보다 더 좋은 시각 특징을 뽑자“고 제안.
  • 위치. Encoder — 비전 인코더 출력에서 LLM에 넣기 전에 줄인다. → Efficient VLM 개요