[SigLIP] Sigmoid Loss for Language Image Pre-Training

Modality Encoder ICCV 2023

Xiaohua Zhai, Basil Mustafa, Alexander Kolesnikov, Lucas Beyer · Google DeepMind

arXiv GitHub

한 줄 요약. CLIP배치 단위 softmax contrastive쌍별 sigmoid loss로 바꾼다. 각 이미지-텍스트 쌍을 독립적인 binary classification(맞는 쌍=양성, 나머지=음성)으로 보므로, 배치 전체의 유사도를 모아 정규화할 필요가 없다(softmax는 모든 쌍을 normalize해야 해서 all-gather·N×N 행렬·수치안정 보정이 필요). 덕분에 메모리 효율·배치 크기 자유 — 작은 배치에서도 더 좋고 100만까지 키울 수도 있다(다만 ~32k면 충분). SigLiT(locked-image + sigmoid)는 TPUv4 4칩·2일로 ImageNet zero-shot 84.5%. 이후 SigLIP(-SO400M)은 LLaVA-OneVision·Qwen2-VL 등 여러 VLM의 표준 비전 인코더가 된다.

배경

CLIP 류의 contrastive 학습은 한 배치 안에서 올바른 (이미지,텍스트) 쌍의 유사도는↑, 나머지는↓ 로 학습한다 — 이때 softmax를 이미지 방향·텍스트 방향 두 번 적용해 유사도를 정규화한다.

  • 글로벌 정규화의 비용 — softmax는 배치 전체의 모든 쌍 유사도를 봐야 한다 → 분산학습에선 all-gather로 임베딩을 모으고 N×N 유사도 행렬을 메모리에 올려야 하며, 수치 안정을 위해 max를 빼는 추가 패스도 필요하다.
  • 배치에 묶임 — 그래서 큰 배치가 사실상 필수가 되고, 작은 배치에선 불리하다.

정규화를 쌍마다 따로 할 수 있다면, 배치 전체를 볼 필요 없이 더 싸고 유연하게 학습할 수 있지 않을까?

Figure 1. sigmoid loss의 효율적 구현. 장치 3개·글로벌 배치 12 예시 — all-gather가 없고, 어느 시점에도 작은 4×4 블록만 메모리에 올린다. 각 쌍이 독립항이라 가능.

핵심 아이디어

① Sigmoid loss = 쌍별 이진분류

softmax 정규화 대신, 모든 (이미지,텍스트) 쌍을 독립적으로 처리한다 — 맞는 쌍 $(I_i,T_i)$은 양성, 나머지 $(I_i,T_{j\ne i})$는 음성binary classification. 글로벌 정규화 인자(분모)가 없다.

② 배치와의 분리 → 효율·유연

각 쌍이 독립항이라 all-gather·N×N 행렬이 불필요 → 메모리 효율. 작은 배치에서 더 좋고, 배치를 100만까지 키워도 학습 가능(이득은 ~32k에서 포화). 배치를 손실에서 떼어내 예시 수 vs 쌍 수, 음/양성 비율도 분석 가능.

  • SigLiT vs SigLIPSigLiT은 공개 이미지 인코더를 freeze(Locked-image Tuning) 하고 텍스트만 맞춰 빠르게 학습(4칩·2일로 84.5%). SigLIP은 인코더까지 함께 from-scratch/unlocked로 학습.

결과

Table 1. SigLiT·SigLIP 결과. sigmoid loss는 메모리 효율적이라 적은 칩으로도 대규모 language-image 사전학습이 가능. SigLiT(g/14, 4 TPUv4·2일)=84.5%, SigLIP(B/16, WebLI, 16칩·3일)=71.0% zero-shot.
  • 효율적 사전학습 — 적은 TPU로 높은 zero-shot(SigLiT 84.5%, B/8 frozen 79.7%).
  • 배치 분석 — 배치를 키워도 이득이 빠르게 포화 → ~32k면 충분(무작정 큰 배치가 답이 아님).

한 줄 정리 & 의의

  • CLIP의 softmax를 sigmoid로 — 쌍별 독립 학습. 글로벌 정규화를 없애 메모리·배치 제약을 풀고, 작은 배치에서도 강하다.
  • VLM 관점에서의 위치. SigLIP(특히 SigLIP-SO400M)은 이후 LLaVA-OneVision·Qwen2-VL·DeepSeek-VL2다수 VLM이 freeze해 쓰는 비전 인코더가 된다 — CLIP·EVA-CLIP과 함께 Modality Encoder 표준의 하나. → VLM 개요