Skip to main content

MoGe

MoGe (Monocular Geometry) は、単眼画像から affine-invariant な 3D point map を直接予測する monocular geometry foundation model です。Depth Anything が「monocular depth foundation」だったのに対し、MoGe は「monocular geometry foundation」を狙います。

何が新しいのか

通常の monocular depth model は depth map を出します。MoGe は、

  • 各 pixel の 3D 座標 (pointmap)
  • Camera intrinsics に対する affine ambiguity を吸収する
  • そこから focal length まで復元できる

を一つの model で扱います。

Depth Anything との違い

観点Depth AnythingMoGe
出力の中心Depth (relative / metric)3D pointmap
Intrinsics別途必要Pointmap から復元可能
3D Reconstruction との接続Prior として直接 geometry を提供
系譜DPT / monocular depthDUSt3R / pointmap

MoGe は、Depth Anything と DUSt3R の中間的な位置にあり、**「単眼でも pointmap を直接出せる foundation」**として整理できます。

なぜ pointmap を出すのか

Pixel ごとに depth だけを出すと、焦点距離の仮定が必要です。3D pointmap を出すと、

  • Camera intrinsics への依存が緩む
  • 反射・透明領域以外で metric scale に近い形が得やすい
  • Downstream で NeRF / 3DGS / SfM への接続が自然

という利点があります。

関連ページ

主なソース