3D Foundation Models Trend
3D Foundation Models は、従来は task ごとに分かれていた camera pose estimation、depth estimation、matching、point cloud prediction、3D reconstruction を、一つまたは少数の large model で扱う流れです。
従来の分割
従来は、各 stage に別々の algorithm がありました。
Foundation model 化
最近の流れでは、次のように統合されます。
代表例
| Model | 特徴 |
|---|---|
| VGGT | Camera、depth、point map、point track を一括推定 |
| DUSt3R | Uncalibrated image pair / multi-view から dense 3D を直接推定 |
| MASt3R | DUSt3R を matching / 3D reconstruction に拡張 |
| Depth Anything 3 | Any-view geometry と depth-ray prediction |
何が変わるのか
3D Foundation Models によって、
- Calibration なし画像からの reconstruction
- Sparse view reconstruction
- COLMAP 失敗時の fallback
- NeRF / 3DGS の初期化
- Robotics のオンライン幾何 prior
が扱いやすくなります。
関連ページ
主なソース
- DUSt3R: https://arxiv.org/abs/2312.14132
- MASt3R: https://arxiv.org/abs/2406.09756
- VGGT: https://arxiv.org/abs/2503.11651
- Depth Anything 3: https://arxiv.org/abs/2511.10647