SAM 3D
SAM 3D は、Segment Anything family を 3D 理解へ拡張する方向の model 群です。具体的には、
- SAM 3D Objects: image から object / scene の 3D shape を推定する
- SAM 3D Body: image から human body の 3D shape を推定する
といった variant を含みます。
何が違うのか
SAM / SAM 2 / SAM 3 は、いずれも 2D mask を返す model でした。SAM 3D は、
- 2D の prompt や mask から
- 3D の shape (mesh、point cloud、parametric body model など) を出す
ことを目指します。
これは、segmentation foundation model と 3D shape foundation model を橋渡しするものと言えます。
Object と body の使い分け
| Variant | 主な対象 | 出力例 |
|---|---|---|
| SAM 3D Objects | 一般 object、scene 内の物体 | Mesh、point cloud、structured 3D shape |
| SAM 3D Body | Human body | Parametric body model (pose + shape) |
Body は object より構造が制約されている分、専用の表現を使うほうが扱いやすい、という設計上の判断です。
古典 3D Reconstruction との関係
SAM 3D は、古典的な multi-view 3D Reconstruction とは別系統です。
| 観点 | 古典 multi-view reconstruction | SAM 3D |
|---|---|---|
| 入力 | 複数 view | 単一 image + prompt |
| 必要な geometry constraint | 強い (camera pose、matching) | 弱い |
| 出力 | Scene 全体 | Object / body 単位 |
| 物理的に正しい geometry | 高い (条件次第) | Prior 依存 |
| 編集性 | 低い | 高い (object 単位で分離) |
両者は競合ではなく、相補的です。SAM 3D で object 単位の 3D を出し、それを multi-view geometry で精緻化する、という pipeline が考えられます。
3D 編集との接続
SAM 3D の出力は、object 単位で 3D 表現を持つため、
- NeRF / 3DGS scene の中で object を差し替える
- Body shape を別 motion で animate する
- Game / VR asset として再利用する
といった用途と直接つながります。