[EVA-CLIP] Improved Training Techniques for CLIP at Scale
Quan Sun, Yuxin Fang, Ledell Wu, Xinlong Wang, Yue Cao · BAAI
한 줄 요약. 새 구조가 아니라 CLIP을 "어떻게 싸고 안정적으로 키우나"에 답한 학습 레시피. 네 가지 — ① EVA로 초기화(MIM 사전학습 가중치에서 출발 → 빠른 수렴·좋은 표현) ② LAMB 옵티마이저(대배치에 적합) ③ 이미지 토큰 랜덤 드롭(FLIP식, 연산↓) ④ flash attention(속도↑). 덕분에 fp16로도 안정, 훨씬 적은 샘플·GPU로 OpenCLIP을 능가. 최대 EVA-02-CLIP-E/14+(5.0B)가 9B 샘플만으로 ImageNet zero-shot 82.0%. 이후 BLIP-2 등 많은 VLM이 비전 인코더로 갖다 쓰는 부품이 된다.
배경
CLIP은 강력한 비전-언어 파운데이션이지만, 스케일업이 어렵다.
- 비용 — 큰 배치가 필요해 연산 자원이 막대하다.
- 불안정 — 모델을 키우면 학습이 자주 발산(특히 저정밀도)한다.
구조는 그대로 두고, 초기화·옵티마이저·증강·속도 트릭만 잘 골라 적은 비용으로 안정적으로 CLIP을 키울 수 없을까?
핵심 — 네 가지 학습 기법
이미지 인코더를 사전학습된 EVA(MIM 기반) 가중치로 초기화 → 표현이 좋고 수렴이 빨라 학습 비용이 준다.
CLIP의 대배치 학습에 맞춘 옵티마이저로 안정성·수렴을 개선.
입력 이미지 토큰 일부를 무작위로 버려(FLIP식) 연산량을 줄이면서도 성능 유지 → 더 큰 배치·스케일을 감당.
attention을 메모리 효율적으로 계산하는 트릭으로 속도↑·메모리↓. 위 기법들과 합쳐 fp16로도 안정 학습.
핵심은 “새 모델”이 아니라 레시피다 — 초기화·옵티마이저·증강·커널을 잘 골라, 같은 파라미터에서 훨씬 적은 샘플·GPU로 더 높은 zero-shot을 낸다.
결과
- 효율 — 예: EVA-01-CLIP-g/14는 OpenCLIP-H/14를 11B vs 32B 샘플 · 1/7 GPU로 능가, 순수 fp16 안정 학습.
- 성능 — EVA-02-CLIP-E/14+(5.0B, 9B 샘플) ImageNet zero-shot 82.0%, EVA-02-CLIP-L/14+(430M, 6B 샘플) 80.4%. distribution shift에도 가장 작은 성능 하락.
- 라인업 — EVA-01/02-CLIP의 g/14·L/14·E/14 등 428M~5.0B, 전부 공개.