Skip to main content

Depth Anything 3

Depth Anything 3 (DA3) は、Depth Anything family を monocular から any-view geometry foundation model へ拡張した model です。Single image だけでなく、任意個数の image を入力にして、spatially consistent な geometry を推定します。

なぜ any-view なのか

Depth Anything V1 / V2 は monocular depth が中心でした。しかし実応用では、

  • 複数 view が得られることが多い (video、multi-view photo、AR device)
  • View 間で geometry が一貫していてほしい
  • できれば camera pose も推定したい

という需要があります。Depth Anything 3 は、その需要を一つの model でカバーしようとします。

アーキテクチャの直感

DA3 は、複雑な multi-task architecture ではなく、plain transformer backbonedepth-ray prediction target を組み合わせるシンプルな構成を採用しています。

ここでの depth-ray prediction は、各 pixel が camera から見たどの方向にどれだけ遠い点を見ているかを統一的に表す target です。これによって、depth、camera、point の表現が一つの予測 target に統合されます。

VGGT との関係

DA3 は、VGGT と多くの目標を共有します。

観点VGGTDepth Anything 3
入力One〜many viewsOne〜many views
出力Camera, depth, point map, point tracksDepth, camera, geometry
BackboneMulti-view transformerPlain transformer + depth-ray target
設計思想Multi-task の同時推論Depth foundation の自然な拡張
起源Geometry-firstDepth-first

両者を「geometry foundation model」というカテゴリで横断的に見ると、

  • VGGT は geometry をまとめて吐く方向
  • DA3 は depth を起点に geometry へ拡張する方向

から同じ方向に向かっている、と整理できます。

何が新しいのか

DA3 の主張は、おおまかに次のとおりです。

  • Monocular depth model に頼っていた depth-anything 系を、any-view input に自然に拡張できる
  • Plain な transformer + 適切な prediction target というシンプルな設計でも、any-view geometry の精度を競争的にできる
  • Known camera pose のあり / なしの両方で動かせる

これは、「geometry には特化 architecture が必要だ」という発想ではなく、「適切な target を選べば、plain な foundation backbone でも geometry が学べる」という主張です。

関連ページ

主なソース