Overview
Encoder
ToMe ICLR 2023
MADTP CVPR 2024
CrossGET ICML 2024
VLTP WACV 2025
VisionZip CVPR 2025
FastVLM CVPR 2025
Bridge
LLaVA-PruMerge ICCV 2025
Recoverable Compression AAAI 2025
DivPrune CVPR 2025
CDPruner NeurIPS 2025
CoViPAL EMNLP 2025
LLM
FastV ECCV 2024
SparseVLM ICML 2025
PyramidDrop CVPR 2025
ATP-LLaVA CVPR 2025
DART EMNLP 2025
TopV CVPR 2025
Encoder+LLM
IVTP ECCV 2024

Overview
VLM
BLIP G1 ICML 2022
Flamingo G2 NeurIPS 2022
BLIP-2 G2 ICML 2023
Kosmos-1 G2 arXiv 2023
LLaVA G3 NeurIPS 2023
MiniGPT-4 G3 arXiv 2023
InstructBLIP G3 NeurIPS 2023
Qwen-VL G3 arXiv 2023
LLaVA-1.5 G3 CVPR 2024
Gemini G4 arXiv 2023
InternVL G3 CVPR 2024
LLaVA-OneVision G4 arXiv 2024
Qwen2-VL G4 arXiv 2024
InternVL 2.5 G4 arXiv 2024
DeepSeek-VL2 G4 arXiv 2024
Qwen2.5-VL G4 arXiv 2025
InternVL3 G4 arXiv 2025
InternVL3.5 G4 arXiv 2025
Qwen3-VL G4 arXiv 2025
Modality Encoder
CLIP ICML 2021
SigLIP ICCV 2023
EVA-CLIP arXiv 2023
Input Projector
P-Former NeurIPS 2023

Token Reduction in ViTs (17)

Overview
Pruning
DynamicViT NeurIPS 2021
EViT ICLR 2022
Evo-ViT AAAI 2022
ATS ECCV 2022
AS-ViT IJCAI 2023
TPS CVPR 2023
Zero-TPrune CVPR 2024
STAR ICLR 2024
Frequency-Aware TR NeurIPS 2025
Token Cropr CVPR 2025
Merging
ToMe ICLR 2023
DTEM NeurIPS 2024
MCTF CVPR 2024
Pooling
TokenLearner NeurIPS 2021
Token Pooling WACV 2023
Hybrid
DiffRate ICCV 2023
Token Fusion (ToFu) WACV 2024

[FastVLM] Efficient Vision Encoding for Vision Language Models

CVPR 2025

2024 · encoder-side · efficient-vlm

Encoder CVPR 2025

Pavan Kumar Anasosalu Vasu, Fartash Faghri, … Oncel Tuzel, Hadi Pouransari · Apple

arXiv GitHub

한 줄 요약. 토큰을 인코더 뒤에서 잘라내는 대신, 인코더 자체를 바꾼다. 고해상도일수록 CLIP 같은 ViT 인코더는 토큰이 너무 많아지고 인코딩 지연도 커진다. FastVLM은 FastViTHD라는 하이브리드(convolution + transformer) 비전 인코더를 새로 설계 — 고해상도에서 더 적은 토큰을 내놓고 인코딩 시간도 크게 단축한다. 덕분에 토큰 수와 해상도의 균형을 입력 이미지 해상도만 키워서 맞출 수 있어 별도의 토큰 가지치기가 필요 없다(설계 단순화). LLaVA-1.5 세팅에서 TTFT(time-to-first-token) 3.2× 가속에 성능 유지, LLaVA-OneVision(1152²) 대비 같은 0.5B LLM으로 SeedBench·MMMU·DocVQA에서 더 좋고 TTFT 85×·인코더 3.4× 작음.

배경

VLM에서 입력 해상도를 키우면 글자 많은 이미지(문서·OCR) 이해가 좋아진다. 그런데 그 비용을 ViT 인코더가 떠안는다.

고해상도 = 토큰 폭증 + 인코딩 지연 — ViT는 해상도가 오르면 토큰 수가 급증하고 self-attention이 제곱으로 비싸져, 인코딩 지연과 LLM에 들어가는 토큰 수가 동시에 커진다.
두 축을 함께 줄여야 — VLM 전체 지연을 낮추려면 인코더의 ① 인코딩 지연과 ② 출력 토큰 수를 같이 줄여야 한다. 기존 접근은 인코더는 두고 뒤에서 토큰을 잘랐다(가지치기).

토큰을 사후에 자르지 말고, 인코더를 처음부터 “적은 토큰·빠른 인코딩”으로 설계하면 가지치기 없이도 해상도·토큰·정확도의 균형을 잡을 수 있지 않을까?

Figure 2. FastVLM 구조. 새 비전 인코더 FastViTHD = convolution(Stem·RepMixer) + self-attention + 학습형 pooling의 하이브리드. 고해상도에서 저지연으로, FastViT보다 4×·ViT-L/14(336)보다 16× 적은 토큰을 낸다. 이후 connector→LLM은 LLaVA와 동일.

핵심 아이디어

① FastViTHD — 하이브리드 인코더

convolution 단계(Stem·RepMixer) + self-attention + 학습형 pooling을 결합한 하이브리드. 고해상도에서 저지연으로 인코딩하면서 토큰을 다운샘플 — FastViT보다 4×, ViT-L/14(336)보다 16× 적은 토큰을 출력.

② 가지치기 없이 "해상도만 스케일"

토큰 수·해상도의 최적 균형을 입력 이미지 해상도를 키우는 것만으로 달성 — 추가 token pruning이 불필요해 모델 설계가 단순해진다. 인코딩 지연·토큰 수 두 축을 한 번에 줄인다.

학습 — FastViTHD는 LLaVA와 같은 세팅으로 학습된 새 인코더(아키텍처 자체가 기여). 즉 사후 가지치기가 아니라 인코더 재설계 접근.

적용·평가

항목	내용
적용 모델	LLaVA-1.5 세팅(Vicuna-7B) · 고용량은 Qwen2-7B LLM · 비교 대상 LLaVA-OneVision·Cambrian-1
데이터셋	SeedBench · MMMU · DocVQA · GQA · TextVQA · POPE 등(텍스트 풍부·고해상도 포함)
Task	Image Understanding (특히 고해상도·text-rich 문서 이해)
대표 결과	LLaVA-1.5 세팅 TTFT 3.2×↑ 성능 유지 · vs LLaVA-OneVision(1152²) 동일 0.5B LLM에서 SeedBench·MMMU·DocVQA 우세·TTFT 85×·인코더 3.4× 작음

결과

정량

Table 1·2. FastViTHD는 ViT-L/14 대비 약 4× 낮은 지연에서 더 높은 정확도(해상도를 768로 키우면 토큰 5× 감소). multi-scale 특징·pooling 전략을 더하면 추가로 향상.

인코더 효율 — FastViTHD는 ViT-L/14보다 ~4× 낮은 지연에서 더 높은 정확도. 해상도를 768로 올리면 토큰이 5× 감소.
VLM 전체 — LLaVA-1.5 세팅 TTFT 3.2×↑(성능 유지), Qwen2-7B 버전은 Cambrian-1-8B를 단일 인코더로 능가하며 TTFT 7.9×↑.

정성

Figure 6. 정적 해상도 스케일링 vs 동적 해상도(AnyRes 타일링). FastViTHD에선 입력 해상도를 그대로 키우는 정적 스케일링이 대부분 구간에서 더 좋은 정확도-지연 트레이드오프를 보이고, 타일링(AnyRes)은 최고 해상도·소수 타일(2×2)에서만 유리.

“타일링보다 해상도 스케일”(Fig 6). 흔히 쓰는 AnyRes 타일 분할은 대부분 구간에서 FastViTHD의 정적 해상도 스케일링보다 트레이드오프가 나쁘다 — 인코더가 고해상도를 효율적으로 처리하니 타일·가지치기 같은 우회가 불필요함을 보여준다.

한 줄 정리 & 의의

토큰을 자르지 말고 인코더를 고치자. FastViTHD(하이브리드)로 고해상도에서 적은 토큰·빠른 인코딩 → 해상도만 키워 균형을 맞추고 가지치기 자체를 없앤다.
차별점. 대부분의 Efficient VLM이 인코더 뒤에서 토큰을 줄이는 데 비해, FastVLM은 인코더 설계로 토큰 수와 인코딩 지연을 근본적으로 낮춘다 — on-device(아이폰·맥)에서 빠른 TTFT가 핵심.
위치. Encoder — 비전 인코더 단계에서 토큰·지연을 줄인다. → Efficient VLM 개요