Overview
VLM
BLIP G1 ICML 2022
Flamingo G2 NeurIPS 2022
BLIP-2 G2 ICML 2023
Kosmos-1 G2 arXiv 2023
LLaVA G3 NeurIPS 2023
MiniGPT-4 G3 arXiv 2023
InstructBLIP G3 NeurIPS 2023
Qwen-VL G3 arXiv 2023
LLaVA-1.5 G3 CVPR 2024
Gemini G4 arXiv 2023
InternVL G3 CVPR 2024
LLaVA-OneVision G4 arXiv 2024
Qwen2-VL G4 arXiv 2024
InternVL 2.5 G4 arXiv 2024
DeepSeek-VL2 G4 arXiv 2024
Qwen2.5-VL G4 arXiv 2025
InternVL3 G4 arXiv 2025
InternVL3.5 G4 arXiv 2025
Qwen3-VL G4 arXiv 2025
Modality Encoder
CLIP ICML 2021
EVA-CLIP arXiv 2023
Input Projector
P-Former NeurIPS 2023

Overview
Pruning
DynamicViT NeurIPS 2021
EViT ICLR 2022
Evo-ViT AAAI 2022
ATS ECCV 2022
AS-ViT IJCAI 2023
TPS CVPR 2023
Zero-TPrune CVPR 2024
STAR ICLR 2024
Frequency-Aware TR NeurIPS 2025
Token Cropr CVPR 2025
Merging
ToMe ICLR 2023
DTEM NeurIPS 2024
MCTF CVPR 2024
Pooling
TokenLearner NeurIPS 2021
Token Pooling WACV 2023
Hybrid
DiffRate ICCV 2023
Token Fusion (ToFu) WACV 2024

Efficient VLM (0)

Overview

[EVA-CLIP] Improved Training Techniques for CLIP at Scale

arXiv 2023

2023 · modality-encoder · vlm

Modality Encoder arXiv 2023

Quan Sun, Yuxin Fang, Ledell Wu, Xinlong Wang, Yue Cao · BAAI

arXiv GitHub

한 줄 요약. 새 구조가 아니라 CLIP을 "어떻게 싸고 안정적으로 키우나"에 답한 학습 레시피. 네 가지 — ① EVA로 초기화(MIM 사전학습 가중치에서 출발 → 빠른 수렴·좋은 표현) ② LAMB 옵티마이저(대배치에 적합) ③ 이미지 토큰 랜덤 드롭(FLIP식, 연산↓) ④ flash attention(속도↑). 덕분에 fp16로도 안정, 훨씬 적은 샘플·GPU로 OpenCLIP을 능가. 최대 EVA-02-CLIP-E/14+(5.0B)가 9B 샘플만으로 ImageNet zero-shot 82.0%. 이후 BLIP-2 등 많은 VLM이 비전 인코더로 갖다 쓰는 부품이 된다.

배경

CLIP은 강력한 비전-언어 파운데이션이지만, 스케일업이 어렵다.

비용 — 큰 배치가 필요해 연산 자원이 막대하다.
불안정 — 모델을 키우면 학습이 자주 발산(특히 저정밀도)한다.

구조는 그대로 두고, 초기화·옵티마이저·증강·속도 트릭만 잘 골라 적은 비용으로 안정적으로 CLIP을 키울 수 없을까?

Figure 1. CLIP 모델들의 ImageNet zero-shot 정확도 vs 파라미터(원 크기 = FLOPs×학습 샘플). EVA-CLIP이 같은 규모에서 OpenCLIP보다 적은 연산으로 더 높은 정확도.

핵심 — 네 가지 학습 기법

① EVA 초기화

이미지 인코더를 사전학습된 EVA(MIM 기반) 가중치로 초기화 → 표현이 좋고 수렴이 빨라 학습 비용이 준다.

② LAMB 옵티마이저

CLIP의 대배치 학습에 맞춘 옵티마이저로 안정성·수렴을 개선.

③ 이미지 토큰 랜덤 드롭

입력 이미지 토큰 일부를 무작위로 버려(FLIP식) 연산량을 줄이면서도 성능 유지 → 더 큰 배치·스케일을 감당.

④ Flash attention

attention을 메모리 효율적으로 계산하는 트릭으로 속도↑·메모리↓. 위 기법들과 합쳐 fp16로도 안정 학습.

핵심은 “새 모델”이 아니라 레시피다 — 초기화·옵티마이저·증강·커널을 잘 골라, 같은 파라미터에서 훨씬 적은 샘플·GPU로 더 높은 zero-shot을 낸다.

결과

효율 — 예: EVA-01-CLIP-g/14는 OpenCLIP-H/14를 11B vs 32B 샘플 · 1/7 GPU로 능가, 순수 fp16 안정 학습.
성능 — EVA-02-CLIP-E/14+(5.0B, 9B 샘플) ImageNet zero-shot 82.0%, EVA-02-CLIP-L/14+(430M, 6B 샘플) 80.4%. distribution shift에도 가장 작은 성능 하락.
라인업 — EVA-01/02-CLIP의 g/14·L/14·E/14 등 428M~5.0B, 전부 공개.

한 줄 정리 & 의의

CLIP을 싸고 안정적으로 스케일하는 학습 레시피. EVA 초기화 + LAMB + 토큰 드롭 + flash attention → 적은 비용·샘플로 더 높은 zero-shot(최대 82.0%).
차별점. CLIP이 contrastive 정렬이라는 틀을 세웠다면, EVA-CLIP은 그 틀을 효율·안정적으로 키우는 법을 푼 것 — 구조가 아니라 학습 기법의 기여.
위치(부품). Modality Encoder — BLIP-2 등 다수 VLM이 freeze해 쓰는 강한 비전 인코더(EVA ViT). → VLM 개요