Depth Anything V2

Depth Anything V2 は、V1 をさらに fine-grained で robust にした depth foundation model です。設計上のキーアイデアは三つあります。

三つのキーアイデア

Synthetic labeled image を使う: Real labeled depth data の代わりに、CG で生成された synthetic image を labeled data として活用する。Synthetic data は、
- 正確な ground-truth depth が取れる
- 多様な scene を作れる
- Label noise が少ない
という利点があります。
Teacher model の capacity を大きくする: より強い backbone (例えば DINO 系の large model) を使うことで、pseudo label の質を上げます。
大量の real image に pseudo label を付ける: Teacher で生成した pseudo label と synthetic label を組み合わせて、student を train します。

「real labeled data の方が真の分布に近いはず」と思いがちですが、現実には real labeled depth dataset は

という弱点があります。これに対して synthetic data は、scene の richness は劣るものの、label の正確性と多様性で勝ります。V2 は、不正確な real label よりも 正確な synthetic labelを選ぶ、という割り切りをしています。

V1 と比べて、V2 では次のような改善が見られます。

これによって、画像生成の depth condition、NeRF / 3DGS の depth supervision、relighting などの downstream task で扱いやすくなりました。

標準は relative depth model。Metric depth が必要なら、metric depth dataset で fine-tune した variant を使う。
同じ image でも、aspect ratio や crop によって出力 depth が変わるため、preprocess を統一する。
強い反射 / 透明物 / 鏡は依然として弱い。