[Recoverable Compression] A Multimodal Vision Token Recovery Mechanism Guided by Text Information

Bridge AAAI 2025

Yi Chen, Jian Xu, … Cheng-Lin Liu · UCAS / CASIA (MAIS)

arXiv GitHub

한 줄 요약. 순수 시각만 보고 자르면 답에 필요한 토큰을 과하게 버린다(oversimplification). Recoverable Compression은 LLM에 넣기 전(브리지) 단계에서 "버린 뒤 되살리는" 3단계 — ① ViT의 CLS 토큰 유사도로 1차 필터링 ② 버려진 토큰 중 질문 텍스트와 유사도가 높은 것을 다시 복구(recover) ③ 남은 덜 중요한 토큰은 병합. 동적 스케일 필터링으로 토큰 수를 정한다. training-free. 시각 토큰을 평균 원본의 ~10%로 줄이면서 성능은 원모델과 대등. (가지치기를 넘어 2차 복구를 넣은 게 정체성.)

배경

LMM은 시각 특징을 LLM에 넣어 쓰므로 시각 토큰 수가 곧 속도다. ViT 토큰 가지치기는 많지만, LMM에 그대로 쓰면 문제가 있다.

  • 순수 시각 기반의 위험 — 시각 정보만으로 자르면 질문에 꼭 필요한 토큰까지 버리는 과압축이 생긴다.
  • 질문엔 단서가 있다 — 질문(텍스트)은 “무엇을 봐야 하는지”에 대한 추가 지식을 담고 있다. 이를 쓰면 어떤 시각 토큰을 살려야 할지 알 수 있다.

그럼 일단 줄이되, 질문과 관련된 토큰은 다시 되살리고(recover) 나머지는 합치면, 적은 토큰으로도 답에 필요한 정보를 지킬 수 있지 않을까?

Figure 2. Recoverable Compression. CLS 유사도로 1차 필터 → 질문 텍스트와 유사한 토큰을 버려진 것들 중에서 복구 → 남은 토큰 병합. 학습 없이 질문을 단서로 '버리고 되살린다'.

핵심 — 3단계

① CLS 기반 1차 필터

ViT의 CLS 토큰(이미지 전역 표현)과 각 시각 토큰의 유사도로 일단 중요한 토큰을 추린다.

② 텍스트 가이드 복구(recover)

1차에서 버려진 토큰 중, 질문 텍스트와 유사도가 높은 토큰을 다시 되살린다 — 순수 시각 기준이 놓친 "답에 필요한" 토큰을 회수.

③ 나머지 병합 (merge)

끝까지 덜 중요한 토큰은 버리지 않고 병합해 정보 손실을 줄인다. 동적 스케일 필터링으로 유지 개수를 정함.

  • 학습 — 추가 파라미터·fine-tuning 없는 training-free(plug-and-play).
  • 정체성 — 다른 가지치기와 달리 버린 뒤 2차로 되살리는(recover) 단계를 둔 게 핵심. (텍스트 가이드라는 점에서 SparseVLM과 한 계열.)

적용·평가

항목 내용
적용 모델 LLaVA-1.5
데이터셋 GQA · MMBench · MME · POPE · ScienceQA · TextVQA · VQAv2 · VizWiz
Task Image Understanding (VQA · OCR · 환각 · 종합)
대표 결과 시각 토큰 평균 원본의 ~10%로 압축하면서 원모델과 대등한 성능

결과

정량

Table 4. LLaVA-1.5에서 토큰을 평균 ~10%까지 압축해도 8개 벤치(GQA·MMB·MME·POPE·SQA·TextVQA·VQAv2·VizWiz) 정확도가 원모델과 대등.
  • 압축률 — 시각 토큰을 평균 원본의 ~10%로 줄여도 원모델과 대등.
  • 같은 비율 비교(Table 2) — 비슷한 토큰 수에서 기존 가지치기 대비 우수 — 특히 질문 단서가 중요한 OCR형(TextVQA)·ScienceQA에서 복구 효과가 두드러진다.

정성

Figure 3. 시각 분석. 순수 시각(CLS) 필터가 버린 토큰 중 질문과 관련된 영역이 복구되어 남는 모습 — 답에 필요한 토큰이 회수된다.
  • 복구의 효과(Fig 3). CLS 기반 1차 필터가 놓친 질문 관련 영역의 토큰이 2차 복구로 되살아남을 시각적으로 확인 — “버린 뒤 되살린다”가 실제로 답 영역을 지켜낸다.

한 줄 정리 & 의의

  • “버리고 되살린다” — 질문 가이드 복구로 과압축을 막는 토큰 압축. ①CLS 1차 필터 ②텍스트 유사 토큰 복구 ③나머지 병합, 학습 없이 ~10%까지.
  • 차별점. 대부분 버리기만 하는데, Recoverable은 2차 복구로 답에 필요한 토큰을 회수한다. LLM 전(브리지)에서 동작하며 질문을 단서로 쓴다(텍스트 가이드 계열 = SparseVLM과 유사, 다만 복구 중심).
  • 위치. Bridge — 인코더와 LLM 사이에서 줄이되 텍스트로 복구. → Efficient VLM 개요