LLaVA and LLM-based VLMs
LLM-based VLMs は、強力な LLM を backbone に、image encoder を接続して visual instruction following を可能にする vision-language model です。LLaVA がオープンソース実装の代表的な起点となり、多くの後続 model に影響しました。
基本構造
- Vision encoder: CLIP、SigLIP、EVA-CLIP などで image feature を抽出
- Projection: Linear / MLP / Q-Former 系で LLM の token 空間に写像
- LLM: LLaMA、Qwen、Mistral などの open LLM を fine-tune
LLaVA
LLaVA は、
- CLIP visual encoder
- Linear projection
- LLaMA / Vicuna LLM
をシンプルに繋ぎ、GPT-4 で生成した multimodal instruction-following dataset で fine-tune するアプローチを提案しました。これによって、open-source でも GPT-4V に近い対話的視覚理解が可能であることを示しました。
LLaVA-1.5、LLaVA-NeXT、LLaVA-OneVision のように、解像度・データ・学習戦略の改善が続いています。
主要なオープン VLM
| Model | 特徴 |
|---|---|
| LLaVA / LLaVA-NeXT | シンプルで再現性が高い基準 |
| Qwen-VL / Qwen2-VL | 多言語 / 高解像度 / 動画対応 |
| InternVL | 大規模 vision encoder と LLM のペアリング |
| MiniGPT-4 | BLIP-2 + LLM の早期実装 |
| Idefics2 / Idefics3 | Hugging Face による open VLM |
| Molmo | Open data + pointing 能力 |
商用では GPT-4V、Gemini、Claude などが同系統です。
3D / Robotics との接続
LLM-based VLM は、
- Open-ended な scene description
- VQA、reasoning
- Tool-use (検出 / 分割 / 3D 推定 model を呼び出す)
- Robot action 生成 (VLA model)
の core component になります。
数式で見る LLM-based VLM の token 結合
LLaVA 系の LLM-based VLM では、画像 を vision encoder に通して得た特徴を projection で LLM の token 空間に写し、それを text token と同じ sequence に並べます。
LLM への入力は、image token と text prompt token を concat した sequence です。
Visual instruction tuning では、response token に対してのみ next-token loss を取ります。
ここで、 は assistant の response token の位置です。この式の気持ちは、「prompt と画像から、assistant がどう答えるべきかだけを学習し、prompt 自体は学習対象にしない」というものです。
LLM を freeze するか fine-tune するか、projection に linear を使うか MLP / Q-Former を使うかは設計上の trade-off です。Frozen LLM は LLM 能力を保ちやすく、fine-tune した LLM は visual instruction への適応度が上がりやすくなります。
関連ページ
主なソース
- LLaVA: https://arxiv.org/abs/2304.08485
- LLaVA-1.5: https://arxiv.org/abs/2310.03744
- Qwen-VL: https://arxiv.org/abs/2308.12966
- InternVL: https://arxiv.org/abs/2312.14238
- Idefics2: https://huggingface.co/blog/idefics2