[EVA-CLIP] Improved Training Techniques for CLIP at Scale

Modality Encoder arXiv 2023

Quan Sun, Yuxin Fang, Ledell Wu, Xinlong Wang, Yue Cao · BAAI

arXiv GitHub

한 줄 요약. 새 구조가 아니라 CLIP"어떻게 싸고 안정적으로 키우나"에 답한 학습 레시피. 네 가지 — ① EVA로 초기화(MIM 사전학습 가중치에서 출발 → 빠른 수렴·좋은 표현) ② LAMB 옵티마이저(대배치에 적합) ③ 이미지 토큰 랜덤 드롭(FLIP식, 연산↓) ④ flash attention(속도↑). 덕분에 fp16로도 안정, 훨씬 적은 샘플·GPU로 OpenCLIP을 능가. 최대 EVA-02-CLIP-E/14+(5.0B)가 9B 샘플만으로 ImageNet zero-shot 82.0%. 이후 BLIP-2 등 많은 VLM이 비전 인코더로 갖다 쓰는 부품이 된다.

배경

CLIP은 강력한 비전-언어 파운데이션이지만, 스케일업이 어렵다.

  • 비용 — 큰 배치가 필요해 연산 자원이 막대하다.
  • 불안정 — 모델을 키우면 학습이 자주 발산(특히 저정밀도)한다.

구조는 그대로 두고, 초기화·옵티마이저·증강·속도 트릭만 잘 골라 적은 비용으로 안정적으로 CLIP을 키울 수 없을까?

Figure 1. CLIP 모델들의 ImageNet zero-shot 정확도 vs 파라미터(원 크기 = FLOPs×학습 샘플). EVA-CLIP이 같은 규모에서 OpenCLIP보다 적은 연산으로 더 높은 정확도.

핵심 — 네 가지 학습 기법

① EVA 초기화

이미지 인코더를 사전학습된 EVA(MIM 기반) 가중치로 초기화 → 표현이 좋고 수렴이 빨라 학습 비용이 준다.

② LAMB 옵티마이저

CLIP의 대배치 학습에 맞춘 옵티마이저로 안정성·수렴을 개선.

③ 이미지 토큰 랜덤 드롭

입력 이미지 토큰 일부를 무작위로 버려(FLIP식) 연산량을 줄이면서도 성능 유지 → 더 큰 배치·스케일을 감당.

④ Flash attention

attention을 메모리 효율적으로 계산하는 트릭으로 속도↑·메모리↓. 위 기법들과 합쳐 fp16로도 안정 학습.

핵심은 “새 모델”이 아니라 레시피다 — 초기화·옵티마이저·증강·커널을 잘 골라, 같은 파라미터에서 훨씬 적은 샘플·GPU로 더 높은 zero-shot을 낸다.

결과

Table 1. EVA-CLIP 구성과 핵심 결과. CLIP·OpenCLIP 대비 ImageNet 및 robustness 셋에서 더 높은 zero-shot top-1. (라벨 학습 예시 0개)
  • 효율 — 예: EVA-01-CLIP-g/14는 OpenCLIP-H/14를 11B vs 32B 샘플 · 1/7 GPU로 능가, 순수 fp16 안정 학습.
  • 성능 — EVA-02-CLIP-E/14+(5.0B, 9B 샘플) ImageNet zero-shot 82.0%, EVA-02-CLIP-L/14+(430M, 6B 샘플) 80.4%. distribution shift에도 가장 작은 성능 하락.
  • 라인업 — EVA-01/02-CLIP의 g/14·L/14·E/14 등 428M~5.0B, 전부 공개.

한 줄 정리 & 의의

  • CLIP을 싸고 안정적으로 스케일하는 학습 레시피. EVA 초기화 + LAMB + 토큰 드롭 + flash attention → 적은 비용·샘플로 더 높은 zero-shot(최대 82.0%).
  • 차별점. CLIPcontrastive 정렬이라는 틀을 세웠다면, EVA-CLIP은 그 틀을 효율·안정적으로 키우는 법을 푼 것 — 구조가 아니라 학습 기법의 기여.
  • 위치(부품). Modality EncoderBLIP-2 등 다수 VLM이 freeze해 쓰는 강한 비전 인코더(EVA ViT). → VLM 개요