SAM 3
SAM 3 は、Segment Anything family を concept prompt に対応させた model です。Image / video の中から、text phrase や image exemplar で指定された visual concept のすべての instance を detect、segment、track します。
SAM / SAM 2 との違い
SAM や SAM 2 の prompt は、基本的に visual prompt でした。
- 「この点の周辺の object を segment して」
- 「この box の中の object を segment して」
SAM 3 では、これに加えて concept prompt が使えます。
- 「yellow school bus を全部見つけて、それぞれ segment して、video 中で track して」
- 「この exemplar image に映っている object と同じ種類のものを全部見つけて」
つまり、SAM 3 は 「どれを segment するか」を自然言語や exemplar で指定できるように拡張されています。
Promptable Concept Segmentation
SAM 3 が解く task は Promptable Concept Segmentation (PCS) と呼ばれます。
- 入力: image または video と、concept prompt
- 出力: 該当する すべての instance の bounding box、mask、video 中の identity
「foreground object を一つ segment する」のではなく、「該当 concept のすべてを見つけて切り出す」点が PCS の特徴です。
Open-vocabulary segmentation との関係
Open-vocabulary segmentation や open-set detection は、固定 class set を持たない segmentation / detection の研究分野です。SAM 3 は、open-vocabulary segmentation と video object segmentation を、一つの promptable framework に統合したものとみなせます。
| 機能 | 古典 segmentation | SAM | SAM 2 | SAM 3 |
|---|---|---|---|---|
| Open vocabulary | × | × | × | ○ |
| Visual prompt | △ | ○ | ○ | ○ |
| Text / exemplar prompt | × | × | △ | ○ |
| Video tracking | × | × | ○ | ○ |
| Instance segmentation | △ | △ | △ | ○ |
3D Reconstruction との関係
SAM 3 の concept prompt は、3D Reconstruction でも便利です。
- 「すべての car だけを segment して point cloud から除外」
- 「scene 内の chair の instance を分けて 3D に lift」
- 「特定の概念に該当する object だけを NeRF / 3DGS で残す / 消す」
など、意味的な指定で 3D scene を編集できます。