MASt3R

MASt3R (Matching And Stereo 3D Reconstruction) は、DUSt3R を発展させ、dense matching と metric-aware geometry を強化した model です。「3D に grounding された image matching」を一つの head で扱える点が中心的な貢献です。

何が DUSt3R から強化されたか

Dense matching head: 各 pixel の descriptor を出し、view 間の dense correspondence を作る
Metric-aware pointmap: 物理 scale により近い 3D を出す
より大規模・多様な training data

これにより、

Image matching benchmark で state-of-the-art 級
Visual localization で強い
SfM / MVS の前段としてそのまま使える

という性能になっています。

なぜ matching が geometry に効くのか

Matching は古典的に keypoint + descriptor の世界でしたが、MASt3R では matching が 3D に grounding されています。つまり、descriptor の類似性だけでなく、両 view の同じ 3D 点を指しているかどうかが直接学習されます。

これにより、

Repetitive structure に強い
Extreme viewpoint change に強い
Wide baseline でも対応がつく

ようになります。

MASt3R-SfM

MASt3R をベースに、複数 view にスケールする MASt3R-SfM が提案されています。Pair-wise pointmap と matching を global に揃え、COLMAP に近いような multi-view reconstruction を、calibration なしで実現します。

VGGT との関係

VGGT も「multi-view geometry を一つの transformer で扱う」方向ですが、

MASt3R 系: pair-wise pointmap + global alignment
VGGT 系: multi-view を transformer に直接入れて統合推論

という違いがあります。両者は補完的に発展しています。

数式で見る MASt3R と MASt3R-SfM

MASt3R は、DUSt3R に matching head を追加し、image pair に対して pointmap だけでなく、pixel-wise correspondence の信頼度 $w_{ij}\in[0,1]$ も予測します。

(\mathbf{P}_{1\to 1},\mathbf{P}_{2\to 1},\{w_{ij}\})=f_\theta(I_1,I_2)

MASt3R-SfM では、複数 view の pointmap と correspondence を global に揃える最適化を解きます。View ごとの剛体変換 $\mathbf{T}_i\in SE(3)$ と global scale $s_i$ を未知量として、次のような objective を最小化します。

\min_{\{\mathbf{T}_i,s_i\}} \sum_{(i,j)}\sum_{\mathbf{x}} w_{ij}(\mathbf{x}) \left\|s_i\mathbf{T}_i\mathbf{P}_{i\to i}(\mathbf{x}) -s_j\mathbf{T}_j\mathbf{P}_{j\to i}(\mathbf{x})\right\|^2

この式の気持ちは、「pair ごとに predict された 3D 点が、view 同士の剛体変換と scale を通して同じ世界座標で一致するように、camera の位置・向き・scale を一括で決める」というものです。COLMAP に近い multi-view reconstruction を、明示的な feature matching と RANSAC を介さずに行えるのが特徴です。

主なソース

MASt3R paper: https://arxiv.org/abs/2406.09756
MASt3R-SfM paper: https://arxiv.org/abs/2409.19152
MASt3R GitHub: https://github.com/naver/mast3r

何が DUSt3R から強化されたか​

なぜ matching が geometry に効くのか​

MASt3R-SfM​

VGGT との関係​

数式で見る MASt3R と MASt3R-SfM​

関連ページ​

主なソース​