SAM 2

SAM 2 は、SAM の枠組みを image と video の両方に拡張した promptable segmentation model です。Frame ごとに mask を出すだけでなく、prompt された object を時間方向に追跡できます。

何が変わったのか

SAM は image を 1 枚ずつ独立に扱いました。SAM 2 では、

という拡張が加わっています。Image も video も同じ model で扱える、unified な設計です。

これによって、object の見た目が時間とともに変わっても、tracking が継続しやすくなります。

SAM 2 が解いている task は、video object segmentation の汎用版とみなせます。

設定	説明
Click prompt	ある frame で対象を click。Model は全 frame でその object の mask を返す。
Box prompt	Bounding box で指定。
Mask prompt	既存 mask を prompt とする (refine 用)。
Multi-object	複数 object を別々に segment / track。

Video が入力になることで、SAM 2 は 3D Reconstruction と特に相性が良くなります。

観点	SAM	SAM 2
対象	Image	Image + Video
Tracking	なし	あり
Memory	なし	Memory attention
Prompt	Visual	Visual
用途	Interactive segmentation	Interactive segmentation + tracking

SAM 2 は、video $V=(I_1,\ldots,I_T)$ と任意フレームでの prompt $p_{t_0}$ を受け取り、各フレームの mask 系列を出力します。

\{\hat{M}_t\}_{t=1}^{T}=f_\theta(V,p_{t_0})

時間方向の整合性は、memory bank $\mathcal{M}_t$ に過去の mask 情報を蓄積することで保たれます。

\mathcal{M}_t=\mathrm{Update}(\mathcal{M}_{t-1},\hat{M}_{t-1},\mathbf{f}_{t-1})

ここで、 $\mathbf{f}_{t-1}$ は frame の visual feature です。次フレームの予測は、現在フレームの feature と memory を attention で参照しながら行います。

\hat{M}_t=g_\theta(\mathbf{f}_t,\mathcal{M}_t)

この式の気持ちは、「object の見た目と過去の mask を memory に持ち、各フレームでそれを参照することで、occlusion や見え方の変化に対しても同じ object を追い続ける」というものです。