[FastV] An Image is Worth 1/2 Tokens After Layer 2

LLM ECCV 2024

Liang Chen, Haozhe Zhao, … Baobao Chang · Peking University 외

arXiv GitHub

한 줄 요약. LVLM의 깊은 LLM 층에서 시각 토큰이 받는 attention이 극히 낮다는 관찰(레이어 2 이후 시각 토큰 attention이 시스템 프롬프트의 0.21%)에서 출발. 그래서 특정 층(예: layer 2) 이후 attention 점수가 낮은 시각 토큰을 잘라낸다. self-attention뿐 아니라 FFN 연산까지 통째로 줄어 FLOPs가 크게 감소. training-free plug-and-playLLaVA-1.5-13B에서 FLOPs 45%↓, 성능 거의 무손실(레이어 2 뒤 시각 토큰 50% 제거).

배경

LVLM은 이미지를 수백~수천 개의 시각 토큰으로 바꿔 LLM에 넣어 연산이 비싸다. FastV는 “LLM이 시각 토큰을 정말 끝까지 다 쓰는가?” 를 들여다봤다.

  • 깊은 층의 비효율적 attention — captioning에서 레이어 2 이후 시각 토큰의 평균 attention은 시스템 프롬프트의 0.21%(초기 2개 층에선 50%).
  • anchor 토큰 가설 — 얕은 층에서 시각 정보가 소수의 (이미지 아닌) anchor 토큰으로 응집되고, 깊은 층의 attention은 그 anchor에 쏠려 시각 토큰 자체는 거의 안 본다.

깊은 층에서 시각 토큰이 출력에 거의 기여하지 않는다면, 그 단계에서 치워버리면 되지 않을까?

Figure 1. FastV의 효율/성능 트레이드오프. x축=이론 FLOPs 감소율, y축=평균 성능(Nocaps·Flickr30k·A-OKVQA·MMMU). 여러 모델에서 약 45% FLOPs 감소에도 성능 손실이 거의 없다.

핵심 아이디어

① 특정 층 이후 토큰 가지치기

레이어 K(예: 2)까지는 정상 계산, 그 이후엔 시각 토큰을 평균 attention 점수로 재평가해 임계값 미만을 버린다. 이후 층의 self-attention·FFN 비용이 함께 줄어든다.

② Training-free plug-and-play

추가 학습·파라미터 없이 추론 시 바로 끼운다. 효율/성능은 K와 가지치기 비율로 조절 가능(Pareto-efficient) — 13B를 7B보다 낮은 비용으로도 운용.

  • sparse attention과의 차이 — attention을 희소화만 하는 게 아니라 토큰을 직접 제거해 FFN 비용까지 없앤다.

적용·평가

항목 내용
적용 모델 LLaVA-1.5(7B/13B) · Qwen-VL-Chat · Video-LLaVA
이미지 데이터셋 Nocaps · Flickr30K · A-OKVQA · MMMU · OCR-VQA · PCA-Bench · MME · MMVet · SEED-Bench
비디오 데이터셋 TGIF-QA · MSVD-QA · MSRVTT-QA
Task Captioning · VQA · 객관식 추론 · OCR · embodied 추론(PCA-Bench) · video understanding
대표 결과 LLaVA-1.5-13B FLOPs 45%↓ 무손실, layer 2 뒤 시각 토큰 50% 제거 · 13B+FastV가 7B보다 낮은 latency

결과

Table 2. 여러 모델·벤치마크 실험. LLaVA-1.5-13B에 K=2·R=50%로 FastV를 끼워도 AI2D·SciQA·SeedBench·MMVet·MME가 원모델과 대등(MMVet·MME는 오히려↑). InstructBLIP-Vicuna-13B에서도 유지.
  • 45% FLOPs↓ 무손실 — LLaVA-1.5-13B 기준 거의 모든 지표가 원모델 수준(일부 상승). Qwen-VL-Chat·Video-LLaVA 등 여러 모델·이미지·비디오 벤치에서 약 45% 지점까지 손실 거의 없음.
  • 13B를 7B보다 싸게 — FastV 적용 13B의 FLOPs가 7B보다 낮으면서 성능은 더 우수.

한 줄 정리 & 의의

  • 깊은 층에서 안 보는 시각 토큰을 버리는 가장 단순·강력한 LLM-side 가지치기. attention 관찰 → 레이어 K 이후 저-attention 토큰 제거(training-free).
  • 차별점. 인코더/브리지에서 미리 자르던 방법들과 달리 LLM 내부 깊은 층의 비효율을 직접 공략. 이후 SparseVLM·PyramidDrop 등 LLM-side 연구의 출발점.
  • 위치. LLM — LLM 디코더 내부에서 줄인다. → Efficient VLM 개요