Segment Anything Overview

Segment Anything は、Meta による promptable segmentation の foundation model family です。「特定の dataset 向けに training された segmentation model」ではなく、「prompt によって任意の object / region を切り出せる、汎用的な segmentation foundation model」を目指して設計されています。

Segment Anything concept

自作概念図。SAM family は image / video と prompt を受け取り、mask や track を返します。

なぜ promptable なのか

従来の segmentation model は、「person を segment する model」「road を segment する model」のように、特定の class や task に対して training されることが多くありました。Segment Anything は、

どの object を segment するかは prompt で指定する
Prompt は point、box、mask、text、exemplar など複数 modality を許す
Prompt に対して mask を返す

という設計にすることで、一つの model を多様な segmentation 用途に再利用できるようにしました。

Family の発展

Segment Anything は、版を重ねて対象範囲を広げてきました。

世代	主な拡張
SAM	画像での promptable segmentation。Visual prompt (point / box / mask)。
SAM 2	画像と動画の両方を扱える unified model。Object tracking。
SAM 3	Text や exemplar による concept prompt。Detect / segment / track の統合。
SAM 3D	Object / body の 3D 推定への拡張。

なぜ 3D Reconstruction で大切か

Segment Anything は geometry を直接出すわけではありません。しかし、3D Reconstruction では mask が果たす役割が非常に大きいです。

Dynamic object を mask して SfM / SLAM を安定化
Object 単位での reconstruction (object-aware NeRF / 3DGS)
Foreground / background 分離
Semantic 3D map の構築
Editable な 3D scene

そのため、SAM family は他の geometry foundation model (VGGT、Depth Anything) と並んで、現代の 3D pipeline の中核 component の一つです。

全体像のまとめ

詳細は以下のページに分けています。

ページ	内容
SAM	元祖 Segment Anything Model の architecture と prompt
SA-1B Dataset	SAM を支える大規模 segmentation dataset
SAM 2	Image + video unified segmentation と memory attention
SAM 3	Concept prompt と Promptable Concept Segmentation
SAM 3D	Object / body の 3D 拡張
Segment Anything in 3D Reconstruction Pipelines	SfM / SLAM / NeRF / 3DGS との組み合わせ

主なソース

Segment Anything paper: https://arxiv.org/abs/2304.02643
Segment Anything project page: https://segment-anything.com/
SAM 2 official page: https://ai.meta.com/sam2/
SAM 3 publication: https://ai.meta.com/research/publications/sam-3-segment-anything-with-concepts/

なぜ promptable なのか​

Family の発展​

なぜ 3D Reconstruction で大切か​

全体像のまとめ​

関連ページ​

主なソース​

なぜ promptable なのか

Family の発展

なぜ 3D Reconstruction で大切か

全体像のまとめ

関連ページ

主なソース