[P-Former] Bootstrapping Vision-Language Learning with Decoupled Language Pre-training

Input Projector NeurIPS 2023

Yiren Jian, Chongyang Gao, Soroush Vosoughi · Dartmouth College / Northwestern University

arXiv GitHub

한 줄 요약. 시각→언어 커넥터(projector)를 더 잘 학습시키는 방법. 보통은 "어떤 시각 특징이 좋은 프롬프트가 될까"를 찾는데(BLIP-2의 Q-Former), P-Former는 방향을 뒤집어 먼저 "frozen LLM이 그 문장을 생성하려면 어떤 프롬프트가 이상적인가"(reference prompt)를 텍스트만으로 학습하고, 그 다음 시각 특징을 그 reference prompt에 맞추도록 정렬한다(backward-decoupling). Prompt-Transformer(P-Former) = 텍스트를 넣어 이상적 프롬프트를 예측하는 모델(이미지-텍스트 쌍 불필요, SimCSE식 문장 임베딩 오토인코더). 학습 때 정렬 손실로만 쓰이고 추론 땐 안 쓴다. 결과: BLIP-2 성능↑, 4M vs 129M 쌍의 격차를 좁힘(데이터 효율). 인코더·커넥터·모달리티에 비의존.

배경

frozen LLM 기반 VLM은 보통 시각 특징을 soft prompt로 LLM에 넣고 이미지-조건 언어생성 손실로 end-to-end 학습한다. BLIP-2는 이를 2단계로 나눠(forward-decoupling) — 1단계에서 Q-Former가 이미지 특징 중 텍스트에 관련된 것을 추려(256→32) 프롬프트로 만든다.

  • 즉 기존 초점은 “어떤 시각 특징을 골라야 좋은 프롬프트가 되나”(비전 쪽).
  • 하지만 end-to-end 정렬은 여전히 어렵고, 좋은 성능엔 많은 이미지-텍스트 쌍이 필요하다.

질문을 뒤집어보자 — LLM이 정답 문장을 생성하려면 애초에 어떤 프롬프트가 “이상적”인가? 그건 사실 언어만의 문제라 텍스트 데이터로 따로 배울 수 있다.

Figure 1. (왼) end-to-end: 시각 특징을 프롬프트로 LLM에 직접. (중) BLIP-2식 forward-decoupling: Q-Former로 특징 추출 후 프롬프트화. (오) 제안하는 backward-decoupling: 먼저 LLM이 target 텍스트를 생성할 'reference prompt'를 찾고, 시각 특징을 그 프롬프트에 매핑.

핵심 아이디어

① Backward-decoupling

"어떤 시각 특징?"이 아니라 "어떤 프롬프트가 이상적?"을 먼저 푼다. 고정 LLM D와 문장 t에 대해 p = argmin L(D(p), t) — 순수 언어 문제라 텍스트만으로 학습 가능.

② P-Former (autoencoder)

문장마다 p를 따로 둘 수 없으니 p = P-Former(t)로 파라미터화. 양방향 Transformer 인코더 + frozen causal LLM 디코더문장 재구성 오토인코더. [CLS] 병목 + SimCSE식 contrastive → 의미적 문장 임베딩 공간.

③ Alignment loss (학습 전용)

VL 사전학습에 정렬 손실 추가 — 커넥터가 낸 시각 프롬프트를 P-Former의 reference prompt에 가깝게. 인코더·커넥터·모달리티에 비의존이고 추론 땐 제거.

Figure 2. (왼) P-Former 학습 = 오토인코더(양방향 P-Former 인코더 + frozen causal LLM 디코더로 텍스트 재구성, [CLS]=문장 임베딩, SimCSE contrastive + vocab 정규화). (오) 학습된 P-Former로 VL 사전학습을 부트스트랩 — 정렬 손실은 모달리티·인코더·커넥터(점선 박스)에 무관하며 P-Former는 학습 때만 쓰인다.
  • 왜 도움이 되나 — (1) VL 학습을 한 단계 더 분리(다단계가 정렬을 쉽게), (2) 텍스트로 배운 의미적으로 풍부한 프롬프트 공간에 시각 특징을 맞추니 비슷한 이미지→비슷한 reference prompt.

결과

Table 1. P-Former를 BLIP-2에 적용한 결과. 동일 베이스라인 대비 일관된 향상, 특히 적은(4M) 이미지-텍스트 쌍에서의 성능을 129M급에 근접시킨다.
  • BLIP-2 강화 — 강한 image-to-text 베이스라인(BLIP-2)에 얹어 성능을 끌어올림.
  • 데이터 효율4M 쌍으로 학습한 모델을 129M 쌍 수준에 근접시켜 격차를 좁힘.
  • 범용성 — soft-prompt 인터페이스를 쓰는 모델(Frozen·BLIP-2·X-LLM 등)에 적용 가능, 비디오 과제에서도 검증.

한 줄 정리 & 의의

  • 커넥터(projector) 학습을 “언어에서 거꾸로” 부트스트랩. 시각 특징을 고르는 대신, 텍스트만으로 이상적 reference prompt를 먼저 학습(P-Former)하고 시각 특징을 거기에 정렬(backward-decoupling).
  • 차별점. BLIP-2의 Q-Former가 “비전→프롬프트”를 학습한다면, P-Former는 “프롬프트의 정답”을 언어로 먼저 정의해 그 학습을 돕는다. 새 추론 비용 0(학습 전용 모듈).
  • 위치(부품). Input Projector — 시각 특징을 LLM 입력 공간으로 잇는 커넥터를 더 적은 데이터로 잘 학습시키는 기법. → VLM 개요