LLaVA and LLM-based VLMs

LLM-based VLMs は、強力な LLM を backbone に、image encoder を接続して visual instruction following を可能にする vision-language model です。LLaVA がオープンソース実装の代表的な起点となり、多くの後続 model に影響しました。

基本構造

Vision encoder: CLIP、SigLIP、EVA-CLIP などで image feature を抽出
Projection: Linear / MLP / Q-Former 系で LLM の token 空間に写像
LLM: LLaMA、Qwen、Mistral などの open LLM を fine-tune

LLaVA

LLaVA は、

CLIP visual encoder
Linear projection
LLaMA / Vicuna LLM

をシンプルに繋ぎ、GPT-4 で生成した multimodal instruction-following dataset で fine-tune するアプローチを提案しました。これによって、open-source でも GPT-4V に近い対話的視覚理解が可能であることを示しました。

LLaVA-1.5、LLaVA-NeXT、LLaVA-OneVision のように、解像度・データ・学習戦略の改善が続いています。

主要なオープン VLM

Model	特徴
LLaVA / LLaVA-NeXT	シンプルで再現性が高い基準
Qwen-VL / Qwen2-VL	多言語 / 高解像度 / 動画対応
InternVL	大規模 vision encoder と LLM のペアリング
MiniGPT-4	BLIP-2 + LLM の早期実装
Idefics2 / Idefics3	Hugging Face による open VLM
Molmo	Open data + pointing 能力

商用では GPT-4V、Gemini、Claude などが同系統です。

3D / Robotics との接続

LLM-based VLM は、

Open-ended な scene description
VQA、reasoning
Tool-use (検出 / 分割 / 3D 推定 model を呼び出す)
Robot action 生成 (VLA model)

の core component になります。

数式で見る LLM-based VLM の token 結合

LLaVA 系の LLM-based VLM では、画像 $x$ を vision encoder $f_I$ に通して得た特徴を projection $g_\phi$ で LLM の token 空間に写し、それを text token と同じ sequence に並べます。

\mathbf{e}_I=g_\phi(f_I(x))\in\mathbb{R}^{M\times d}

LLM への入力は、image token と text prompt token を concat した sequence です。

\mathbf{e}_{\mathrm{input}}=[\mathbf{e}_I;\mathbf{e}_{T_1};\mathbf{e}_{T_2};\ldots]

Visual instruction tuning では、response token に対してのみ next-token loss を取ります。

\mathcal{L}_{\mathrm{VLM}} =-\sum_{t\in\mathcal{R}}\log p_\theta(y_t\mid y_{<t},\mathbf{e}_I,\mathrm{prompt})

ここで、 $\mathcal{R}$ は assistant の response token の位置です。この式の気持ちは、「prompt と画像から、assistant がどう答えるべきかだけを学習し、prompt 自体は学習対象にしない」というものです。

LLM を freeze するか fine-tune するか、projection に linear を使うか MLP / Q-Former を使うかは設計上の trade-off です。Frozen LLM は LLM 能力を保ちやすく、fine-tune した LLM は visual instruction への適応度が上がりやすくなります。

主なソース

LLaVA: https://arxiv.org/abs/2304.08485
LLaVA-1.5: https://arxiv.org/abs/2310.03744
Qwen-VL: https://arxiv.org/abs/2308.12966
InternVL: https://arxiv.org/abs/2312.14238
Idefics2: https://huggingface.co/blog/idefics2

基本構造​

LLaVA​

主要なオープン VLM​

3D / Robotics との接続​

数式で見る LLM-based VLM の token 結合​

関連ページ​

主なソース​