Overview
VLM
BLIP G1 ICML 2022
Flamingo G2 NeurIPS 2022
BLIP-2 G2 ICML 2023
Kosmos-1 G2 arXiv 2023
LLaVA G3 NeurIPS 2023
MiniGPT-4 G3 arXiv 2023
InstructBLIP G3 NeurIPS 2023
Qwen-VL G3 arXiv 2023
LLaVA-1.5 G3 CVPR 2024
Gemini G4 arXiv 2023
InternVL G3 CVPR 2024
LLaVA-OneVision G4 arXiv 2024
Qwen2-VL G4 arXiv 2024
InternVL 2.5 G4 arXiv 2024
DeepSeek-VL2 G4 arXiv 2024
Qwen2.5-VL G4 arXiv 2025
InternVL3 G4 arXiv 2025
InternVL3.5 G4 arXiv 2025
Qwen3-VL G4 arXiv 2025
Modality Encoder
CLIP ICML 2021
EVA-CLIP arXiv 2023
Input Projector
P-Former NeurIPS 2023

Overview
Pruning
DynamicViT NeurIPS 2021
EViT ICLR 2022
Evo-ViT AAAI 2022
ATS ECCV 2022
AS-ViT IJCAI 2023
TPS CVPR 2023
Zero-TPrune CVPR 2024
STAR ICLR 2024
Frequency-Aware TR NeurIPS 2025
Token Cropr CVPR 2025
Merging
ToMe ICLR 2023
DTEM NeurIPS 2024
MCTF CVPR 2024
Pooling
TokenLearner NeurIPS 2021
Token Pooling WACV 2023
Hybrid
DiffRate ICCV 2023
Token Fusion (ToFu) WACV 2024

Efficient VLM (0)

Overview

[P-Former] Bootstrapping Vision-Language Learning with Decoupled Language Pre-training

NeurIPS 2023

2023 · input-projector · vlm

Input Projector NeurIPS 2023

Yiren Jian, Chongyang Gao, Soroush Vosoughi · Dartmouth College / Northwestern University

arXiv GitHub

한 줄 요약. 시각→언어 커넥터(projector)를 더 잘 학습시키는 방법. 보통은 "어떤 시각 특징이 좋은 프롬프트가 될까"를 찾는데(BLIP-2의 Q-Former), P-Former는 방향을 뒤집어 먼저 "frozen LLM이 그 문장을 생성하려면 어떤 프롬프트가 이상적인가"(reference prompt)를 텍스트만으로 학습하고, 그 다음 시각 특징을 그 reference prompt에 맞추도록 정렬한다(backward-decoupling). Prompt-Transformer(P-Former) = 텍스트를 넣어 이상적 프롬프트를 예측하는 모델(이미지-텍스트 쌍 불필요, SimCSE식 문장 임베딩 오토인코더). 학습 때 정렬 손실로만 쓰이고 추론 땐 안 쓴다. 결과: BLIP-2 성능↑, 4M vs 129M 쌍의 격차를 좁힘(데이터 효율). 인코더·커넥터·모달리티에 비의존.

배경

frozen LLM 기반 VLM은 보통 시각 특징을 soft prompt로 LLM에 넣고 이미지-조건 언어생성 손실로 end-to-end 학습한다. BLIP-2는 이를 2단계로 나눠(forward-decoupling) — 1단계에서 Q-Former가 이미지 특징 중 텍스트에 관련된 것을 추려(256→32) 프롬프트로 만든다.

즉 기존 초점은 “어떤 시각 특징을 골라야 좋은 프롬프트가 되나”(비전 쪽).
하지만 end-to-end 정렬은 여전히 어렵고, 좋은 성능엔 많은 이미지-텍스트 쌍이 필요하다.

질문을 뒤집어보자 — LLM이 정답 문장을 생성하려면 애초에 어떤 프롬프트가 “이상적”인가? 그건 사실 언어만의 문제라 텍스트 데이터로 따로 배울 수 있다.

Figure 1. (왼) end-to-end: 시각 특징을 프롬프트로 LLM에 직접. (중) BLIP-2식 forward-decoupling: Q-Former로 특징 추출 후 프롬프트화. (오) 제안하는 backward-decoupling: 먼저 LLM이 target 텍스트를 생성할 'reference prompt'를 찾고, 시각 특징을 그 프롬프트에 매핑.

핵심 아이디어

① Backward-decoupling

"어떤 시각 특징?"이 아니라 "어떤 프롬프트가 이상적?"을 먼저 푼다. 고정 LLM D와 문장 t에 대해 p = argmin L(D(p), t) — 순수 언어 문제라 텍스트만으로 학습 가능.

② P-Former (autoencoder)

문장마다 p를 따로 둘 수 없으니 p = P-Former(t)로 파라미터화. 양방향 Transformer 인코더 + frozen causal LLM 디코더로 문장 재구성 오토인코더. [CLS] 병목 + SimCSE식 contrastive → 의미적 문장 임베딩 공간.

③ Alignment loss (학습 전용)

VL 사전학습에 정렬 손실 추가 — 커넥터가 낸 시각 프롬프트를 P-Former의 reference prompt에 가깝게. 인코더·커넥터·모달리티에 비의존이고 추론 땐 제거.

Figure 2. (왼) P-Former 학습 = 오토인코더(양방향 P-Former 인코더 + frozen causal LLM 디코더로 텍스트 재구성, [CLS]=문장 임베딩, SimCSE contrastive + vocab 정규화). (오) 학습된 P-Former로 VL 사전학습을 부트스트랩 — 정렬 손실은 모달리티·인코더·커넥터(점선 박스)에 무관하며 P-Former는 학습 때만 쓰인다.

왜 도움이 되나 — (1) VL 학습을 한 단계 더 분리(다단계가 정렬을 쉽게), (2) 텍스트로 배운 의미적으로 풍부한 프롬프트 공간에 시각 특징을 맞추니 비슷한 이미지→비슷한 reference prompt.

결과

BLIP-2 강화 — 강한 image-to-text 베이스라인(BLIP-2)에 얹어 성능을 끌어올림.
데이터 효율 — 4M 쌍으로 학습한 모델을 129M 쌍 수준에 근접시켜 격차를 좁힘.
범용성 — soft-prompt 인터페이스를 쓰는 모델(Frozen·BLIP-2·X-LLM 등)에 적용 가능, 비디오 과제에서도 검증.

한 줄 정리 & 의의

커넥터(projector) 학습을 “언어에서 거꾸로” 부트스트랩. 시각 특징을 고르는 대신, 텍스트만으로 이상적 reference prompt를 먼저 학습(P-Former)하고 시각 특징을 거기에 정렬(backward-decoupling).
차별점. BLIP-2의 Q-Former가 “비전→프롬프트”를 학습한다면, P-Former는 “프롬프트의 정답”을 언어로 먼저 정의해 그 학습을 돕는다. 새 추론 비용 0(학습 전용 모듈).
위치(부품). Input Projector — 시각 특징을 LLM 입력 공간으로 잇는 커넥터를 더 적은 데이터로 잘 학습시키는 기법. → VLM 개요