SAM 3D

SAM 3D は、Segment Anything family を 3D 理解へ拡張する方向の model 群です。具体的には、

といった variant を含みます。

何が違うのか

SAM / SAM 2 / SAM 3 は、いずれも 2D mask を返す model でした。SAM 3D は、

ことを目指します。

これは、segmentation foundation model と 3D shape foundation model を橋渡しするものと言えます。

Variant	主な対象	出力例
SAM 3D Objects	一般 object、scene 内の物体	Mesh、point cloud、structured 3D shape
SAM 3D Body	Human body	Parametric body model (pose + shape)

Body は object より構造が制約されている分、専用の表現を使うほうが扱いやすい、という設計上の判断です。

SAM 3D は、古典的な multi-view 3D Reconstruction とは別系統です。

観点	古典 multi-view reconstruction	SAM 3D
入力	複数 view	単一 image + prompt
必要な geometry constraint	強い (camera pose、matching)	弱い
出力	Scene 全体	Object / body 単位
物理的に正しい geometry	高い (条件次第)	Prior 依存
編集性	低い	高い (object 単位で分離)

両者は競合ではなく、相補的です。SAM 3D で object 単位の 3D を出し、それを multi-view geometry で精緻化する、という pipeline が考えられます。

SAM 3D の出力は、object 単位で 3D 表現を持つため、

といった用途と直接つながります。