3D Foundation Models Trend

3D Foundation Models は、従来は task ごとに分かれていた camera pose estimation、depth estimation、matching、point cloud prediction、3D reconstruction を、一つまたは少数の large model で扱う流れです。

従来の分割

従来は、各 stage に別々の algorithm がありました。

Foundation model 化

最近の流れでは、次のように統合されます。

代表例

Model	特徴
VGGT	Camera、depth、point map、point track を一括推定
DUSt3R	Uncalibrated image pair / multi-view から dense 3D を直接推定
MASt3R	DUSt3R を matching / 3D reconstruction に拡張
Depth Anything 3	Any-view geometry と depth-ray prediction

何が変わるのか

3D Foundation Models によって、

Calibration なし画像からの reconstruction
Sparse view reconstruction
COLMAP 失敗時の fallback
NeRF / 3DGS の初期化
Robotics のオンライン幾何 prior

が扱いやすくなります。

主なソース

DUSt3R: https://arxiv.org/abs/2312.14132
MASt3R: https://arxiv.org/abs/2406.09756
VGGT: https://arxiv.org/abs/2503.11651
Depth Anything 3: https://arxiv.org/abs/2511.10647

従来の分割​

Foundation model 化​

代表例​

何が変わるのか​

関連ページ​

主なソース​

従来の分割

Foundation model 化

代表例

何が変わるのか

関連ページ

主なソース