Vision-Language Models Overview

Vision-Language Models (VLM) は、image / video と language を共通の空間で扱う foundation model です。Zero-shot classification、retrieval、captioning、VQA、open-vocabulary detection / segmentation、robot policy、LLM の vision 入力など、応用は非常に幅広いです。

大きな分類

分類	代表例	特徴
Dual encoder	CLIP、SigLIP	Image と text を別々に encode し、共通空間で対比
Captioning / VQA	BLIP、BLIP-2	Image-conditioned text generation
LLM-based VLM	LLaVA、Qwen-VL、GPT-4V、Gemini	LLM に視覚 input を加える
Open-vocabulary perception	Grounding DINO、OWL-ViT	Text query で detection / segmentation

詳細ページ

ページ	内容
CLIP	Image-text contrastive learning の foundation
SigLIP	Sigmoid loss による軽量・大規模 CLIP 改良
BLIP and BLIP-2	Captioning / VQA に強い VLM
LLaVA and LLM-based VLMs	LLM + visual encoder の汎用 VLM
Grounding DINO and Open-Vocabulary Detection	Text-conditioned open-vocab 検出

3D / Robotics との接続

VLM は 2D image / language を扱う model ですが、3D / robotics でも中心的な役割を担います。

Open-Vocabulary 3D Perception では CLIP feature を 3D に lift
Vision-Language-Action Models の backbone
Segment Anything の concept prompt 機構

数式で見る VLM の三つの定式化

VLM は、image $x$ と text $y$ をどう結ぶかによって、大まかに次の三つに分けられます。

Dual encoder の contrastive 型は、image embedding $\mathbf{v}$ と text embedding $\mathbf{t}$ の similarity を学習します。

\mathrm{sim}(x,y)=\mathbf{v}^\top\mathbf{t}

Caption / VQA 型は、image を条件にした次 token 分布を学習します。

p_\theta(y_t\mid y_{<t},x)

LLM-based VLM は、画像 token を text token と同じ sequence に並べて autoregressive に生成します。

p_\theta(y_t\mid y_{<t},\mathrm{proj}(f_I(x)))

この三つの式の気持ちは、「retrieval を解きたいのか、文を作りたいのか、会話したいのか」によって学習目的が変わる、ということです。同じ「VLM」でも、目的に応じて損失と inference が大きく違うため、benchmark の選び方も変わります。

主なソース

CLIP: https://arxiv.org/abs/2103.00020
SigLIP: https://arxiv.org/abs/2303.15343
BLIP: https://arxiv.org/abs/2201.12086
BLIP-2: https://arxiv.org/abs/2301.12597
LLaVA: https://arxiv.org/abs/2304.08485
Grounding DINO: https://arxiv.org/abs/2303.05499

大きな分類​

詳細ページ​

3D / Robotics との接続​

数式で見る VLM の三つの定式化​

関連ページ​

主なソース​

大きな分類

詳細ページ

3D / Robotics との接続

数式で見る VLM の三つの定式化

関連ページ

主なソース