Skip to main content

Vision-Language Models Overview

Vision-Language Models (VLM) は、image / video と language を共通の空間で扱う foundation model です。Zero-shot classification、retrieval、captioning、VQA、open-vocabulary detection / segmentation、robot policy、LLM の vision 入力など、応用は非常に幅広いです。

大きな分類

分類代表例特徴
Dual encoderCLIP、SigLIPImage と text を別々に encode し、共通空間で対比
Captioning / VQABLIP、BLIP-2Image-conditioned text generation
LLM-based VLMLLaVA、Qwen-VL、GPT-4V、GeminiLLM に視覚 input を加える
Open-vocabulary perceptionGrounding DINO、OWL-ViTText query で detection / segmentation

詳細ページ

ページ内容
CLIPImage-text contrastive learning の foundation
SigLIPSigmoid loss による軽量・大規模 CLIP 改良
BLIP and BLIP-2Captioning / VQA に強い VLM
LLaVA and LLM-based VLMsLLM + visual encoder の汎用 VLM
Grounding DINO and Open-Vocabulary DetectionText-conditioned open-vocab 検出

3D / Robotics との接続

VLM は 2D image / language を扱う model ですが、3D / robotics でも中心的な役割を担います。

数式で見る VLM の三つの定式化

VLM は、image xx と text yy をどう結ぶかによって、大まかに次の三つに分けられます。

  1. Dual encoder の contrastive 型は、image embedding v\mathbf{v} と text embedding t\mathbf{t} の similarity を学習します。
sim(x,y)=vt\mathrm{sim}(x,y)=\mathbf{v}^\top\mathbf{t}
  1. Caption / VQA 型は、image を条件にした次 token 分布を学習します。
pθ(yty<t,x)p_\theta(y_t\mid y_{<t},x)
  1. LLM-based VLM は、画像 token を text token と同じ sequence に並べて autoregressive に生成します。
pθ(yty<t,proj(fI(x)))p_\theta(y_t\mid y_{<t},\mathrm{proj}(f_I(x)))

この三つの式の気持ちは、「retrieval を解きたいのか、文を作りたいのか、会話したいのか」によって学習目的が変わる、ということです。同じ「VLM」でも、目的に応じて損失と inference が大きく違うため、benchmark の選び方も変わります。

関連ページ

主なソース