Vision-Language Models Overview
Vision-Language Models (VLM) は、image / video と language を共通の空間で扱う foundation model です。Zero-shot classification、retrieval、captioning、VQA、open-vocabulary detection / segmentation、robot policy、LLM の vision 入力など、応用は非常に幅広いです。
大きな分類
| 分類 | 代表例 | 特徴 |
|---|---|---|
| Dual encoder | CLIP、SigLIP | Image と text を別々に encode し、共通空間で対比 |
| Captioning / VQA | BLIP、BLIP-2 | Image-conditioned text generation |
| LLM-based VLM | LLaVA、Qwen-VL、GPT-4V、Gemini | LLM に視覚 input を加える |
| Open-vocabulary perception | Grounding DINO、OWL-ViT | Text query で detection / segmentation |
詳細ページ
| ページ | 内容 |
|---|---|
| CLIP | Image-text contrastive learning の foundation |
| SigLIP | Sigmoid loss による軽量・大規模 CLIP 改良 |
| BLIP and BLIP-2 | Captioning / VQA に強い VLM |
| LLaVA and LLM-based VLMs | LLM + visual encoder の汎用 VLM |
| Grounding DINO and Open-Vocabulary Detection | Text-conditioned open-vocab 検出 |
3D / Robotics との接続
VLM は 2D image / language を扱う model ですが、3D / robotics でも中心的な役割を担います。
- Open-Vocabulary 3D Perception では CLIP feature を 3D に lift
- Vision-Language-Action Models の backbone
- Segment Anything の concept prompt 機構
数式で見る VLM の三つの定式化
VLM は、image と text をどう結ぶかによって、大まかに次の三つに分けられます。
- Dual encoder の contrastive 型は、image embedding と text embedding の similarity を学習します。
- Caption / VQA 型は、image を条件にした次 token 分布を学習します。
- LLM-based VLM は、画像 token を text token と同じ sequence に並べて autoregressive に生成します。
この三つの式の気持ちは、「retrieval を解きたいのか、文を作りたいのか、会話したいのか」によって学習目的が変わる、ということです。同じ「VLM」でも、目的に応じて損失と inference が大きく違うため、benchmark の選び方も変わります。
関連ページ
主なソース
- CLIP: https://arxiv.org/abs/2103.00020
- SigLIP: https://arxiv.org/abs/2303.15343
- BLIP: https://arxiv.org/abs/2201.12086
- BLIP-2: https://arxiv.org/abs/2301.12597
- LLaVA: https://arxiv.org/abs/2304.08485
- Grounding DINO: https://arxiv.org/abs/2303.05499