Skip to main content

SAM 3

SAM 3 は、Segment Anything family を concept prompt に対応させた model です。Image / video の中から、text phrase や image exemplar で指定された visual concept のすべての instance を detect、segment、track します。

SAM / SAM 2 との違い

SAM や SAM 2 の prompt は、基本的に visual prompt でした。

  • 「この点の周辺の object を segment して」
  • 「この box の中の object を segment して」

SAM 3 では、これに加えて concept prompt が使えます。

  • 「yellow school bus を全部見つけて、それぞれ segment して、video 中で track して」
  • 「この exemplar image に映っている object と同じ種類のものを全部見つけて」

つまり、SAM 3 は 「どれを segment するか」を自然言語や exemplar で指定できるように拡張されています。

Promptable Concept Segmentation

SAM 3 が解く task は Promptable Concept Segmentation (PCS) と呼ばれます。

  • 入力: image または video と、concept prompt
  • 出力: 該当する すべての instance の bounding box、mask、video 中の identity

「foreground object を一つ segment する」のではなく、「該当 concept のすべてを見つけて切り出す」点が PCS の特徴です。

Open-vocabulary segmentation との関係

Open-vocabulary segmentation や open-set detection は、固定 class set を持たない segmentation / detection の研究分野です。SAM 3 は、open-vocabulary segmentation と video object segmentation を、一つの promptable framework に統合したものとみなせます。

機能古典 segmentationSAMSAM 2SAM 3
Open vocabulary×××
Visual prompt
Text / exemplar prompt××
Video tracking××
Instance segmentation

3D Reconstruction との関係

SAM 3 の concept prompt は、3D Reconstruction でも便利です。

  • 「すべての car だけを segment して point cloud から除外」
  • 「scene 内の chair の instance を分けて 3D に lift」
  • 「特定の概念に該当する object だけを NeRF / 3DGS で残す / 消す」

など、意味的な指定で 3D scene を編集できます。

関連ページ

主なソース