Skip to main content

MASt3R

MASt3R (Matching And Stereo 3D Reconstruction) は、DUSt3R を発展させ、dense matchingmetric-aware geometry を強化した model です。「3D に grounding された image matching」を一つの head で扱える点が中心的な貢献です。

何が DUSt3R から強化されたか

  • Dense matching head: 各 pixel の descriptor を出し、view 間の dense correspondence を作る
  • Metric-aware pointmap: 物理 scale により近い 3D を出す
  • より大規模・多様な training data

これにより、

  • Image matching benchmark で state-of-the-art 級
  • Visual localization で 強い
  • SfM / MVS の前段としてそのまま使える

という性能になっています。

なぜ matching が geometry に効くのか

Matching は古典的に keypoint + descriptor の世界でしたが、MASt3R では matching が 3D に grounding されています。つまり、descriptor の類似性だけでなく、両 view の同じ 3D 点を指しているかどうかが直接学習されます。

これにより、

  • Repetitive structure に強い
  • Extreme viewpoint change に強い
  • Wide baseline でも対応がつく

ようになります。

MASt3R-SfM

MASt3R をベースに、複数 view にスケールする MASt3R-SfM が提案されています。Pair-wise pointmap と matching を global に揃え、COLMAP に近いような multi-view reconstruction を、calibration なしで実現します。

VGGT との関係

VGGT も「multi-view geometry を一つの transformer で扱う」方向ですが、

  • MASt3R 系: pair-wise pointmap + global alignment
  • VGGT 系: multi-view を transformer に直接入れて統合推論

という違いがあります。両者は補完的に発展しています。

数式で見る MASt3R と MASt3R-SfM

MASt3R は、DUSt3R に matching head を追加し、image pair に対して pointmap だけでなく、pixel-wise correspondence の信頼度 wij[0,1]w_{ij}\in[0,1] も予測します。

(P11,P21,{wij})=fθ(I1,I2)(\mathbf{P}_{1\to 1},\mathbf{P}_{2\to 1},\{w_{ij}\})=f_\theta(I_1,I_2)

MASt3R-SfM では、複数 view の pointmap と correspondence を global に揃える最適化を解きます。View ごとの剛体変換 TiSE(3)\mathbf{T}_i\in SE(3) と global scale sis_i を未知量として、次のような objective を最小化します。

min{Ti,si}(i,j)xwij(x)siTiPii(x)sjTjPji(x)2\min_{\{\mathbf{T}_i,s_i\}} \sum_{(i,j)}\sum_{\mathbf{x}} w_{ij}(\mathbf{x}) \left\|s_i\mathbf{T}_i\mathbf{P}_{i\to i}(\mathbf{x}) -s_j\mathbf{T}_j\mathbf{P}_{j\to i}(\mathbf{x})\right\|^2

この式の気持ちは、「pair ごとに predict された 3D 点が、view 同士の剛体変換と scale を通して同じ世界座標で一致するように、camera の位置・向き・scale を一括で決める」というものです。COLMAP に近い multi-view reconstruction を、明示的な feature matching と RANSAC を介さずに行えるのが特徴です。

関連ページ

主なソース