SAM 3

SAM 3 は、Segment Anything family を concept prompt に対応させた model です。Image / video の中から、text phrase や image exemplar で指定された visual concept のすべての instance を detect、segment、track します。

SAM / SAM 2 との違い

SAM や SAM 2 の prompt は、基本的に visual prompt でした。

「この点の周辺の object を segment して」
「この box の中の object を segment して」

SAM 3 では、これに加えて concept prompt が使えます。

「yellow school bus を全部見つけて、それぞれ segment して、video 中で track して」
「この exemplar image に映っている object と同じ種類のものを全部見つけて」

つまり、SAM 3 は 「どれを segment するか」を自然言語や exemplar で指定できるように拡張されています。

Promptable Concept Segmentation

SAM 3 が解く task は Promptable Concept Segmentation (PCS) と呼ばれます。

入力: image または video と、concept prompt
出力: 該当する すべての instance の bounding box、mask、video 中の identity

「foreground object を一つ segment する」のではなく、「該当 concept のすべてを見つけて切り出す」点が PCS の特徴です。

Open-vocabulary segmentation との関係

Open-vocabulary segmentation や open-set detection は、固定 class set を持たない segmentation / detection の研究分野です。SAM 3 は、open-vocabulary segmentation と video object segmentation を、一つの promptable framework に統合したものとみなせます。

機能	古典 segmentation	SAM	SAM 2	SAM 3
Open vocabulary	×	×	×	○
Visual prompt	△	○	○	○
Text / exemplar prompt	×	×	△	○
Video tracking	×	×	○	○
Instance segmentation	△	△	△	○

3D Reconstruction との関係

SAM 3 の concept prompt は、3D Reconstruction でも便利です。

「すべての car だけを segment して point cloud から除外」
「scene 内の chair の instance を分けて 3D に lift」
「特定の概念に該当する object だけを NeRF / 3DGS で残す / 消す」

など、意味的な指定で 3D scene を編集できます。

主なソース

SAM 3 publication: https://ai.meta.com/research/publications/sam-3-segment-anything-with-concepts/

SAM / SAM 2 との違い​

Promptable Concept Segmentation​

Open-vocabulary segmentation との関係​

3D Reconstruction との関係​

関連ページ​

主なソース​

SAM / SAM 2 との違い

Promptable Concept Segmentation

Open-vocabulary segmentation との関係

3D Reconstruction との関係

関連ページ

主なソース