Depth Anything in 3D Reconstruction Pipelines

Depth Anything は、3D Reconstruction の中で 「prior としての depth」 を提供する位置にあります。ここでは、典型的な組み合わせをまとめます。

NeRF / 3DGS の depth supervision

Sparse view の NeRF や 3D Gaussian Splatting では、photometric loss だけだと geometry が崩れやすくなります。Depth Anything による depth prior を追加 supervision として与えると、

という効果があります。

Structure from Motion は、texture が少ない scene や view 間 overlap が小さい場合に失敗しやすくなります。Depth Anything で得た monocular depth を使えば、

に役立ちます。

近年の text-to-image / video diffusion model では、depth condition が広く使われています (ControlNet)。

これによって、構図や奥行きを保ったまま、見た目だけを書き換えるような編集が可能になります。

Depth Anything は、他 foundation model と組み合わせると相補的に働きます。

これらを統合すると、geometry と semantic の両面で扱いやすい 3D scene が得られます。

Depth Anything 3 は any-view geometry を直接出すため、VGGT 的に単独で使うことも可能です。

このとき、SfM や VGGT との使い分けは、対象 scene、必要精度、metric scale の要否などで判断します。