VGGT Limitations and Open Issues

VGGT は強力な geometry foundation model ですが、万能ではありません。実用上の注意点と、まだ open な問題を整理します。

Domain shift と prior 依存

VGGT は、training data に含まれる scene 分布から強い prior を学んでいます。そのため、

では、prior に引っ張られて系統的な誤りを出すことがあります。

Single image だけでは、scene の絶対的な大きさは原理的に決まりません。VGGT も single view では metric scale を保証しません。

Metric scale が必要な場合は、次のいずれかを併用します。

古典的に難しい surface は、VGGT でも依然として難しいです。

これは VGGT 固有の問題ではなく、image だけからの geometry 推定の本質的な難しさです。

古典 SfM では、各段階の中間結果を見ることで失敗原因を追えました。VGGT は black-box になりやすいため、

という難点があります。実用では、

のように、最後に古典最適化を入れて検証可能性を確保することがよく行われます。

VGGT は学習された写像なので、training 分布から外れる scene では予測が劣化します。Hold-out validation では、camera pose 誤差、depth 誤差、reprojection 誤差を一緒に見ると失敗 mode を切り分けやすくなります。

Camera pose の誤差は SE(3) 距離で測れます。

e_R=\arccos\left(\frac{\mathrm{tr}(\mathbf{R}^*\hat{\mathbf{R}}^\top)-1}{2}\right), \qquad e_t=\|\mathbf{t}^*-\hat{\mathbf{t}}\|

Scale 不変の depth 誤差は次の通りです。

e_D=\min_{a,b}\frac{1}{N}\sum_i\left|(a\hat{d}_i+b)-d_i^*\right|

Reprojection 誤差は VGGT 内部の整合性 check に使えます。

e_{\mathrm{rep}}=\frac{1}{|\mathcal{O}|}\sum_{(i,j)} \left\|\mathbf{u}_{ij}-\pi(\hat{\mathbf{K}}_i(\hat{\mathbf{R}}_i\hat{\mathbf{X}}_j+\hat{\mathbf{t}}_i))\right\|

この式の気持ちは、「single metric では失敗の原因が camera か depth か correspondence か分からないので、複数の指標を分けて測ることで failure mode を診断する」というものです。