Skip to main content

Depth Anything V2

Depth Anything V2 は、V1 をさらに fine-grainedrobust にした depth foundation model です。設計上のキーアイデアは三つあります。

三つのキーアイデア

  1. Synthetic labeled image を使う: Real labeled depth data の代わりに、CG で生成された synthetic image を labeled data として活用する。Synthetic data は、

    • 正確な ground-truth depth が取れる
    • 多様な scene を作れる
    • Label noise が少ない

    という利点があります。

  2. Teacher model の capacity を大きくする: より強い backbone (例えば DINO 系の large model) を使うことで、pseudo label の質を上げます。

  3. 大量の real image に pseudo label を付ける: Teacher で生成した pseudo label と synthetic label を組み合わせて、student を train します。

なぜ synthetic data なのか

「real labeled data の方が真の分布に近いはず」と思いがちですが、現実には real labeled depth dataset は

  • Sensor (LiDAR、stereo) ノイズが乗る
  • 室内 / 屋外、車載のような限られた scene が中心
  • Edge や thin structure で誤った label が多い

という弱点があります。これに対して synthetic data は、scene の richness は劣るものの、label の正確性と多様性で勝ります。V2 は、不正確な real label よりも 正確な synthetic labelを選ぶ、という割り切りをしています。

何が改善されたか

V1 と比べて、V2 では次のような改善が見られます。

  • Object boundary や thin structure の depth が鮮明
  • Reflective surface や複雑 scene でのロバスト性
  • 細かい formation の保存

これによって、画像生成の depth condition、NeRF / 3DGS の depth supervision、relighting などの downstream task で扱いやすくなりました。

V2 を使うときの実務的な注意

  • 標準は relative depth model。Metric depth が必要なら、metric depth dataset で fine-tune した variant を使う。
  • 同じ image でも、aspect ratio や crop によって出力 depth が変わるため、preprocess を統一する。
  • 強い反射 / 透明物 / 鏡は依然として弱い。

関連ページ

主なソース