[Recoverable Compression] A Multimodal Vision Token Recovery Mechanism Guided by Text Information
Bridge AAAI 2025
Yi Chen, Jian Xu, … Cheng-Lin Liu · UCAS / CASIA (MAIS)
한 줄 요약. 순수 시각만 보고 자르면 답에 필요한 토큰을 과하게 버린다(oversimplification). Recoverable Compression은 LLM에 넣기 전(브리지) 단계에서 "버린 뒤 되살리는" 3단계 — ① ViT의 CLS 토큰 유사도로 1차 필터링 ② 버려진 토큰 중 질문 텍스트와 유사도가 높은 것을 다시 복구(recover) ③ 남은 덜 중요한 토큰은 병합. 동적 스케일 필터링으로 토큰 수를 정한다. training-free. 시각 토큰을 평균 원본의 ~10%로 줄이면서 성능은 원모델과 대등. (가지치기를 넘어 2차 복구를 넣은 게 정체성.)
배경
LMM은 시각 특징을 LLM에 넣어 쓰므로 시각 토큰 수가 곧 속도다. ViT 토큰 가지치기는 많지만, LMM에 그대로 쓰면 문제가 있다.
- 순수 시각 기반의 위험 — 시각 정보만으로 자르면 질문에 꼭 필요한 토큰까지 버리는 과압축이 생긴다.
- 질문엔 단서가 있다 — 질문(텍스트)은 “무엇을 봐야 하는지”에 대한 추가 지식을 담고 있다. 이를 쓰면 어떤 시각 토큰을 살려야 할지 알 수 있다.
그럼 일단 줄이되, 질문과 관련된 토큰은 다시 되살리고(recover) 나머지는 합치면, 적은 토큰으로도 답에 필요한 정보를 지킬 수 있지 않을까?
핵심 — 3단계
① CLS 기반 1차 필터
ViT의 CLS 토큰(이미지 전역 표현)과 각 시각 토큰의 유사도로 일단 중요한 토큰을 추린다.
② 텍스트 가이드 복구(recover)
1차에서 버려진 토큰 중, 질문 텍스트와 유사도가 높은 토큰을 다시 되살린다 — 순수 시각 기준이 놓친 "답에 필요한" 토큰을 회수.
③ 나머지 병합 (merge)
끝까지 덜 중요한 토큰은 버리지 않고 병합해 정보 손실을 줄인다. 동적 스케일 필터링으로 유지 개수를 정함.
- 학습 — 추가 파라미터·fine-tuning 없는 training-free(plug-and-play).
- 정체성 — 다른 가지치기와 달리 버린 뒤 2차로 되살리는(recover) 단계를 둔 게 핵심. (텍스트 가이드라는 점에서 SparseVLM과 한 계열.)
적용·평가
| 항목 | 내용 |
|---|---|
| 적용 모델 | LLaVA-1.5 |
| 데이터셋 | GQA · MMBench · MME · POPE · ScienceQA · TextVQA · VQAv2 · VizWiz |
| Task | Image Understanding (VQA · OCR · 환각 · 종합) |
| 대표 결과 | 시각 토큰 평균 원본의 ~10%로 압축하면서 원모델과 대등한 성능 |
결과
정량
- 압축률 — 시각 토큰을 평균 원본의 ~10%로 줄여도 원모델과 대등.
- 같은 비율 비교(Table 2) — 비슷한 토큰 수에서 기존 가지치기 대비 우수 — 특히 질문 단서가 중요한 OCR형(TextVQA)·ScienceQA에서 복구 효과가 두드러진다.
정성
- 복구의 효과(Fig 3). CLS 기반 1차 필터가 놓친 질문 관련 영역의 토큰이 2차 복구로 되살아남을 시각적으로 확인 — “버린 뒤 되살린다”가 실제로 답 영역을 지켜낸다.
한 줄 정리 & 의의
- “버리고 되살린다” — 질문 가이드 복구로 과압축을 막는 토큰 압축. ①CLS 1차 필터 ②텍스트 유사 토큰 복구 ③나머지 병합, 학습 없이 ~10%까지.
- 차별점. 대부분 버리기만 하는데, Recoverable은 2차 복구로 답에 필요한 토큰을 회수한다. LLM 전(브리지)에서 동작하며 질문을 단서로 쓴다(텍스트 가이드 계열 = SparseVLM과 유사, 다만 복구 중심).
- 위치. Bridge — 인코더와 LLM 사이에서 줄이되 텍스트로 복구. → Efficient VLM 개요