Skip to main content

Segment Anything Overview

Segment Anything は、Meta による promptable segmentation の foundation model family です。「特定の dataset 向けに training された segmentation model」ではなく、「prompt によって任意の object / region を切り出せる、汎用的な segmentation foundation model」を目指して設計されています。

Segment Anything concept

自作概念図。SAM family は image / video と prompt を受け取り、mask や track を返します。

なぜ promptable なのか

従来の segmentation model は、「person を segment する model」「road を segment する model」のように、特定の class や task に対して training されることが多くありました。Segment Anything は、

  • どの object を segment するかは prompt で指定する
  • Prompt は point、box、mask、text、exemplar など複数 modality を許す
  • Prompt に対して mask を返す

という設計にすることで、一つの model を多様な segmentation 用途に再利用できるようにしました。

Family の発展

Segment Anything は、版を重ねて対象範囲を広げてきました。

世代主な拡張
SAM画像での promptable segmentation。Visual prompt (point / box / mask)。
SAM 2画像と動画の両方を扱える unified model。Object tracking。
SAM 3Text や exemplar による concept prompt。Detect / segment / track の統合。
SAM 3DObject / body の 3D 推定への拡張。

なぜ 3D Reconstruction で大切か

Segment Anything は geometry を直接出すわけではありません。しかし、3D Reconstruction では mask が果たす役割が非常に大きいです。

  • Dynamic object を mask して SfM / SLAM を安定化
  • Object 単位での reconstruction (object-aware NeRF / 3DGS)
  • Foreground / background 分離
  • Semantic 3D map の構築
  • Editable な 3D scene

そのため、SAM family は他の geometry foundation model (VGGT、Depth Anything) と並んで、現代の 3D pipeline の中核 component の一つです。

全体像のまとめ

詳細は以下のページに分けています。

ページ内容
SAM元祖 Segment Anything Model の architecture と prompt
SA-1B DatasetSAM を支える大規模 segmentation dataset
SAM 2Image + video unified segmentation と memory attention
SAM 3Concept prompt と Promptable Concept Segmentation
SAM 3DObject / body の 3D 拡張
Segment Anything in 3D Reconstruction PipelinesSfM / SLAM / NeRF / 3DGS との組み合わせ

関連ページ

主なソース