Overview
Encoder
ToMe ICLR 2023
MADTP CVPR 2024
CrossGET ICML 2024
VLTP WACV 2025
VisionZip CVPR 2025
FastVLM CVPR 2025
Bridge
LLaVA-PruMerge ICCV 2025
Recoverable Compression AAAI 2025
DivPrune CVPR 2025
CDPruner NeurIPS 2025
CoViPAL EMNLP 2025
LLM
FastV ECCV 2024
SparseVLM ICML 2025
PyramidDrop CVPR 2025
ATP-LLaVA CVPR 2025
DART EMNLP 2025
TopV CVPR 2025
Encoder+LLM
IVTP ECCV 2024

Overview
VLM
BLIP G1 ICML 2022
Flamingo G2 NeurIPS 2022
BLIP-2 G2 ICML 2023
Kosmos-1 G2 arXiv 2023
LLaVA G3 NeurIPS 2023
MiniGPT-4 G3 arXiv 2023
InstructBLIP G3 NeurIPS 2023
Qwen-VL G3 arXiv 2023
LLaVA-1.5 G3 CVPR 2024
Gemini G4 arXiv 2023
InternVL G3 CVPR 2024
LLaVA-OneVision G4 arXiv 2024
Qwen2-VL G4 arXiv 2024
InternVL 2.5 G4 arXiv 2024
DeepSeek-VL2 G4 arXiv 2024
Qwen2.5-VL G4 arXiv 2025
InternVL3 G4 arXiv 2025
InternVL3.5 G4 arXiv 2025
Qwen3-VL G4 arXiv 2025
Modality Encoder
CLIP ICML 2021
SigLIP ICCV 2023
EVA-CLIP arXiv 2023
Input Projector
P-Former NeurIPS 2023

Token Reduction in ViTs (17)

Overview
Pruning
DynamicViT NeurIPS 2021
EViT ICLR 2022
Evo-ViT AAAI 2022
ATS ECCV 2022
AS-ViT IJCAI 2023
TPS CVPR 2023
Zero-TPrune CVPR 2024
STAR ICLR 2024
Frequency-Aware TR NeurIPS 2025
Token Cropr CVPR 2025
Merging
ToMe ICLR 2023
DTEM NeurIPS 2024
MCTF CVPR 2024
Pooling
TokenLearner NeurIPS 2021
Token Pooling WACV 2023
Hybrid
DiffRate ICCV 2023
Token Fusion (ToFu) WACV 2024

[SigLIP] Sigmoid Loss for Language Image Pre-Training

ICCV 2023

2023 · modality-encoder · vlm

Modality Encoder ICCV 2023

Xiaohua Zhai, Basil Mustafa, Alexander Kolesnikov, Lucas Beyer · Google DeepMind

arXiv GitHub

한 줄 요약. CLIP의 배치 단위 softmax contrastive를 쌍별 sigmoid loss로 바꾼다. 각 이미지-텍스트 쌍을 독립적인 binary classification(맞는 쌍=양성, 나머지=음성)으로 보므로, 배치 전체의 유사도를 모아 정규화할 필요가 없다(softmax는 모든 쌍을 normalize해야 해서 all-gather·N×N 행렬·수치안정 보정이 필요). 덕분에 메모리 효율·배치 크기 자유 — 작은 배치에서도 더 좋고 100만까지 키울 수도 있다(다만 ~32k면 충분). SigLiT(locked-image + sigmoid)는 TPUv4 4칩·2일로 ImageNet zero-shot 84.5%. 이후 SigLIP(-SO400M)은 LLaVA-OneVision·Qwen2-VL 등 여러 VLM의 표준 비전 인코더가 된다.

배경

CLIP 류의 contrastive 학습은 한 배치 안에서 올바른 (이미지,텍스트) 쌍의 유사도는↑, 나머지는↓ 로 학습한다 — 이때 softmax를 이미지 방향·텍스트 방향 두 번 적용해 유사도를 정규화한다.

글로벌 정규화의 비용 — softmax는 배치 전체의 모든 쌍 유사도를 봐야 한다 → 분산학습에선 all-gather로 임베딩을 모으고 N×N 유사도 행렬을 메모리에 올려야 하며, 수치 안정을 위해 max를 빼는 추가 패스도 필요하다.
배치에 묶임 — 그래서 큰 배치가 사실상 필수가 되고, 작은 배치에선 불리하다.

정규화를 쌍마다 따로 할 수 있다면, 배치 전체를 볼 필요 없이 더 싸고 유연하게 학습할 수 있지 않을까?

Figure 1. sigmoid loss의 효율적 구현. 장치 3개·글로벌 배치 12 예시 — all-gather가 없고, 어느 시점에도 작은 4×4 블록만 메모리에 올린다. 각 쌍이 독립항이라 가능.

핵심 아이디어

① Sigmoid loss = 쌍별 이진분류

softmax 정규화 대신, 모든 (이미지,텍스트) 쌍을 독립적으로 처리한다 — 맞는 쌍 $(I_i,T_i)$은 양성, 나머지 $(I_i,T_{j\ne i})$는 음성인 binary classification. 글로벌 정규화 인자(분모)가 없다.

② 배치와의 분리 → 효율·유연

각 쌍이 독립항이라 all-gather·N×N 행렬이 불필요 → 메모리 효율. 작은 배치에서 더 좋고, 배치를 100만까지 키워도 학습 가능(이득은 ~32k에서 포화). 배치를 손실에서 떼어내 예시 수 vs 쌍 수, 음/양성 비율도 분석 가능.

SigLiT vs SigLIP — SigLiT은 공개 이미지 인코더를 freeze(Locked-image Tuning) 하고 텍스트만 맞춰 빠르게 학습(4칩·2일로 84.5%). SigLIP은 인코더까지 함께 from-scratch/unlocked로 학습.

결과

효율적 사전학습 — 적은 TPU로 높은 zero-shot(SigLiT 84.5%, B/8 frozen 79.7%).
배치 분석 — 배치를 키워도 이득이 빠르게 포화 → ~32k면 충분(무작정 큰 배치가 답이 아님).

한 줄 정리 & 의의

CLIP의 softmax를 sigmoid로 — 쌍별 독립 학습. 글로벌 정규화를 없애 메모리·배치 제약을 풀고, 작은 배치에서도 강하다.
VLM 관점에서의 위치. SigLIP(특히 SigLIP-SO400M)은 이후 LLaVA-OneVision·Qwen2-VL·DeepSeek-VL2 등 다수 VLM이 freeze해 쓰는 비전 인코더가 된다 — CLIP·EVA-CLIP과 함께 Modality Encoder 표준의 하나. → VLM 개요