Depth Anything 3

Depth Anything 3 (DA3) は、Depth Anything family を monocular から any-view geometry foundation model へ拡張した model です。Single image だけでなく、任意個数の image を入力にして、spatially consistent な geometry を推定します。

なぜ any-view なのか

Depth Anything V1 / V2 は monocular depth が中心でした。しかし実応用では、

複数 view が得られることが多い (video、multi-view photo、AR device)
View 間で geometry が一貫していてほしい
できれば camera pose も推定したい

という需要があります。Depth Anything 3 は、その需要を一つの model でカバーしようとします。

アーキテクチャの直感

DA3 は、複雑な multi-task architecture ではなく、plain transformer backbone と depth-ray prediction target を組み合わせるシンプルな構成を採用しています。

ここでの depth-ray prediction は、各 pixel が camera から見たどの方向にどれだけ遠い点を見ているかを統一的に表す target です。これによって、depth、camera、point の表現が一つの予測 target に統合されます。

VGGT との関係

DA3 は、VGGT と多くの目標を共有します。

観点	VGGT	Depth Anything 3
入力	One〜many views	One〜many views
出力	Camera, depth, point map, point tracks	Depth, camera, geometry
Backbone	Multi-view transformer	Plain transformer + depth-ray target
設計思想	Multi-task の同時推論	Depth foundation の自然な拡張
起源	Geometry-first	Depth-first

両者を「geometry foundation model」というカテゴリで横断的に見ると、

VGGT は geometry をまとめて吐く方向
DA3 は depth を起点に geometry へ拡張する方向

から同じ方向に向かっている、と整理できます。

何が新しいのか

DA3 の主張は、おおまかに次のとおりです。

Monocular depth model に頼っていた depth-anything 系を、any-view input に自然に拡張できる
Plain な transformer + 適切な prediction target というシンプルな設計でも、any-view geometry の精度を競争的にできる
Known camera pose のあり / なしの両方で動かせる

これは、「geometry には特化 architecture が必要だ」という発想ではなく、「適切な target を選べば、plain な foundation backbone でも geometry が学べる」という主張です。

主なソース

Depth Anything 3 paper: https://arxiv.org/abs/2511.10647
Depth Anything 3 GitHub repository: https://github.com/ByteDance-Seed/Depth-Anything-3

なぜ any-view なのか​

アーキテクチャの直感​

VGGT との関係​

何が新しいのか​

関連ページ​

主なソース​

なぜ any-view なのか

アーキテクチャの直感

VGGT との関係

何が新しいのか

関連ページ

主なソース