Skip to main content

LLaVA and LLM-based VLMs

LLM-based VLMs は、強力な LLM を backbone に、image encoder を接続して visual instruction following を可能にする vision-language model です。LLaVA がオープンソース実装の代表的な起点となり、多くの後続 model に影響しました。

基本構造

  • Vision encoder: CLIP、SigLIP、EVA-CLIP などで image feature を抽出
  • Projection: Linear / MLP / Q-Former 系で LLM の token 空間に写像
  • LLM: LLaMA、Qwen、Mistral などの open LLM を fine-tune

LLaVA

LLaVA は、

  • CLIP visual encoder
  • Linear projection
  • LLaMA / Vicuna LLM

をシンプルに繋ぎ、GPT-4 で生成した multimodal instruction-following dataset で fine-tune するアプローチを提案しました。これによって、open-source でも GPT-4V に近い対話的視覚理解が可能であることを示しました。

LLaVA-1.5、LLaVA-NeXT、LLaVA-OneVision のように、解像度・データ・学習戦略の改善が続いています。

主要なオープン VLM

Model特徴
LLaVA / LLaVA-NeXTシンプルで再現性が高い基準
Qwen-VL / Qwen2-VL多言語 / 高解像度 / 動画対応
InternVL大規模 vision encoder と LLM のペアリング
MiniGPT-4BLIP-2 + LLM の早期実装
Idefics2 / Idefics3Hugging Face による open VLM
MolmoOpen data + pointing 能力

商用では GPT-4V、Gemini、Claude などが同系統です。

3D / Robotics との接続

LLM-based VLM は、

  • Open-ended な scene description
  • VQA、reasoning
  • Tool-use (検出 / 分割 / 3D 推定 model を呼び出す)
  • Robot action 生成 (VLA model)

の core component になります。

数式で見る LLM-based VLM の token 結合

LLaVA 系の LLM-based VLM では、画像 xx を vision encoder fIf_I に通して得た特徴を projection gϕg_\phi で LLM の token 空間に写し、それを text token と同じ sequence に並べます。

eI=gϕ(fI(x))RM×d\mathbf{e}_I=g_\phi(f_I(x))\in\mathbb{R}^{M\times d}

LLM への入力は、image token と text prompt token を concat した sequence です。

einput=[eI;eT1;eT2;]\mathbf{e}_{\mathrm{input}}=[\mathbf{e}_I;\mathbf{e}_{T_1};\mathbf{e}_{T_2};\ldots]

Visual instruction tuning では、response token に対してのみ next-token loss を取ります。

LVLM=tRlogpθ(yty<t,eI,prompt)\mathcal{L}_{\mathrm{VLM}} =-\sum_{t\in\mathcal{R}}\log p_\theta(y_t\mid y_{<t},\mathbf{e}_I,\mathrm{prompt})

ここで、R\mathcal{R} は assistant の response token の位置です。この式の気持ちは、「prompt と画像から、assistant がどう答えるべきかだけを学習し、prompt 自体は学習対象にしない」というものです。

LLM を freeze するか fine-tune するか、projection に linear を使うか MLP / Q-Former を使うかは設計上の trade-off です。Frozen LLM は LLM 能力を保ちやすく、fine-tune した LLM は visual instruction への適応度が上がりやすくなります。

関連ページ

主なソース