[FastV] An Image is Worth 1/2 Tokens After Layer 2
LLM ECCV 2024
Liang Chen, Haozhe Zhao, … Baobao Chang · Peking University 외
한 줄 요약. LVLM의 깊은 LLM 층에서 시각 토큰이 받는 attention이 극히 낮다는 관찰(레이어 2 이후 시각 토큰 attention이 시스템 프롬프트의 0.21%)에서 출발. 그래서 특정 층(예: layer 2) 이후 attention 점수가 낮은 시각 토큰을 잘라낸다. self-attention뿐 아니라 FFN 연산까지 통째로 줄어 FLOPs가 크게 감소. training-free plug-and-play — LLaVA-1.5-13B에서 FLOPs 45%↓, 성능 거의 무손실(레이어 2 뒤 시각 토큰 50% 제거).
배경
LVLM은 이미지를 수백~수천 개의 시각 토큰으로 바꿔 LLM에 넣어 연산이 비싸다. FastV는 “LLM이 시각 토큰을 정말 끝까지 다 쓰는가?” 를 들여다봤다.
- 깊은 층의 비효율적 attention — captioning에서 레이어 2 이후 시각 토큰의 평균 attention은 시스템 프롬프트의 0.21%(초기 2개 층에선 50%).
- anchor 토큰 가설 — 얕은 층에서 시각 정보가 소수의 (이미지 아닌) anchor 토큰으로 응집되고, 깊은 층의 attention은 그 anchor에 쏠려 시각 토큰 자체는 거의 안 본다.
깊은 층에서 시각 토큰이 출력에 거의 기여하지 않는다면, 그 단계에서 치워버리면 되지 않을까?
핵심 아이디어
① 특정 층 이후 토큰 가지치기
레이어 K(예: 2)까지는 정상 계산, 그 이후엔 시각 토큰을 평균 attention 점수로 재평가해 임계값 미만을 버린다. 이후 층의 self-attention·FFN 비용이 함께 줄어든다.
② Training-free plug-and-play
추가 학습·파라미터 없이 추론 시 바로 끼운다. 효율/성능은 K와 가지치기 비율로 조절 가능(Pareto-efficient) — 13B를 7B보다 낮은 비용으로도 운용.
- sparse attention과의 차이 — attention을 희소화만 하는 게 아니라 토큰을 직접 제거해 FFN 비용까지 없앤다.
적용·평가
| 항목 | 내용 |
|---|---|
| 적용 모델 | LLaVA-1.5(7B/13B) · Qwen-VL-Chat · Video-LLaVA |
| 이미지 데이터셋 | Nocaps · Flickr30K · A-OKVQA · MMMU · OCR-VQA · PCA-Bench · MME · MMVet · SEED-Bench |
| 비디오 데이터셋 | TGIF-QA · MSVD-QA · MSRVTT-QA |
| Task | Captioning · VQA · 객관식 추론 · OCR · embodied 추론(PCA-Bench) · video understanding |
| 대표 결과 | LLaVA-1.5-13B FLOPs 45%↓ 무손실, layer 2 뒤 시각 토큰 50% 제거 · 13B+FastV가 7B보다 낮은 latency |
결과
- 45% FLOPs↓ 무손실 — LLaVA-1.5-13B 기준 거의 모든 지표가 원모델 수준(일부 상승). Qwen-VL-Chat·Video-LLaVA 등 여러 모델·이미지·비디오 벤치에서 약 45% 지점까지 손실 거의 없음.
- 13B를 7B보다 싸게 — FastV 적용 13B의 FLOPs가 7B보다 낮으면서 성능은 더 우수.
한 줄 정리 & 의의
- 깊은 층에서 안 보는 시각 토큰을 버리는 가장 단순·강력한 LLM-side 가지치기. attention 관찰 → 레이어 K 이후 저-attention 토큰 제거(training-free).
- 차별점. 인코더/브리지에서 미리 자르던 방법들과 달리 LLM 내부 깊은 층의 비효율을 직접 공략. 이후 SparseVLM·PyramidDrop 등 LLM-side 연구의 출발점.
- 위치. LLM — LLM 디코더 내부에서 줄인다. → Efficient VLM 개요