Depth Anything 3
Depth Anything 3 (DA3) は、Depth Anything family を monocular から any-view geometry foundation model へ拡張した model です。Single image だけでなく、任意個数の image を入力にして、spatially consistent な geometry を推定します。
なぜ any-view なのか
Depth Anything V1 / V2 は monocular depth が中心でした。しかし実応用では、
- 複数 view が得られることが多い (video、multi-view photo、AR device)
- View 間で geometry が一貫していてほしい
- できれば camera pose も推定したい
という需要があります。Depth Anything 3 は、その需要を一つの model でカバーしようとします。
アーキテクチャの直感
DA3 は、複雑な multi-task architecture ではなく、plain transformer backbone と depth-ray prediction target を組み合わせるシンプルな構成を採用しています。
ここでの depth-ray prediction は、各 pixel が camera から見たどの方向にどれだけ遠い点を見ているかを統一的に表す target です。これによって、depth、camera、point の表現が一つの予測 target に統合されます。
VGGT との関係
DA3 は、VGGT と多くの目標を共有します。
| 観点 | VGGT | Depth Anything 3 |
|---|---|---|
| 入力 | One〜many views | One〜many views |
| 出力 | Camera, depth, point map, point tracks | Depth, camera, geometry |
| Backbone | Multi-view transformer | Plain transformer + depth-ray target |
| 設計思想 | Multi-task の同時推論 | Depth foundation の自然な拡張 |
| 起源 | Geometry-first | Depth-first |
両者を「geometry foundation model」というカテゴリで横断的に見ると、
- VGGT は geometry をまとめて吐く方向
- DA3 は depth を起点に geometry へ拡張する方向
から同じ方向に向かっている、と整理できます。
何が新しいのか
DA3 の主張は、おおまかに次のとおりです。
- Monocular depth model に頼っていた depth-anything 系を、any-view input に自然に拡張できる
- Plain な transformer + 適切な prediction target というシンプルな設計でも、any-view geometry の精度を競争的にできる
- Known camera pose のあり / なしの両方で動かせる
これは、「geometry には特化 architecture が必要だ」という発想ではなく、「適切な target を選べば、plain な foundation backbone でも geometry が学べる」という主張です。
関連ページ
主なソース
- Depth Anything 3 paper: https://arxiv.org/abs/2511.10647
- Depth Anything 3 GitHub repository: https://github.com/ByteDance-Seed/Depth-Anything-3