Depth Anything V2
Depth Anything V2 は、V1 をさらに fine-grained で robust にした depth foundation model です。設計上のキーアイデアは三つあります。
三つのキーアイデア
-
Synthetic labeled image を使う: Real labeled depth data の代わりに、CG で生成された synthetic image を labeled data として活用する。Synthetic data は、
- 正確な ground-truth depth が取れる
- 多様な scene を作れる
- Label noise が少ない
という利点があります。
-
Teacher model の capacity を大きくする: より強い backbone (例えば DINO 系の large model) を使うことで、pseudo label の質を上げます。
-
大量の real image に pseudo label を付ける: Teacher で生成した pseudo label と synthetic label を組み合わせて、student を train します。
なぜ synthetic data なのか
「real labeled data の方が真の分布に近いはず」と思いがちですが、現実には real labeled depth dataset は
- Sensor (LiDAR、stereo) ノイズが乗る
- 室内 / 屋外、車載のような限られた scene が中心
- Edge や thin structure で誤った label が多い
という弱点があります。これに対して synthetic data は、scene の richness は劣るものの、label の正確性と多様性で勝ります。V2 は、不正確な real label よりも 正確な synthetic labelを選ぶ、という割り切りをしています。
何が改善されたか
V1 と比べて、V2 では次のような改善が見られます。
- Object boundary や thin structure の depth が鮮明
- Reflective surface や複雑 scene でのロバスト性
- 細かい formation の保存
これによって、画像生成の depth condition、NeRF / 3DGS の depth supervision、relighting などの downstream task で扱いやすくなりました。
V2 を使うときの実務的な注意
- 標準は relative depth model。Metric depth が必要なら、metric depth dataset で fine-tune した variant を使う。
- 同じ image でも、aspect ratio や crop によって出力 depth が変わるため、preprocess を統一する。
- 強い反射 / 透明物 / 鏡は依然として弱い。
関連ページ
- Depth Anything V1
- Depth Anything 3
- Relative vs Metric Depth
- Depth Anything in 3D Reconstruction Pipelines
主なソース
- Depth Anything V2 paper: https://arxiv.org/abs/2406.09414
- Depth Anything V2 project page: https://depth-anything-v2.github.io/