MASt3R
MASt3R (Matching And Stereo 3D Reconstruction) は、DUSt3R を発展させ、dense matching と metric-aware geometry を強化した model です。「3D に grounding された image matching」を一つの head で扱える点が中心的な貢献です。
何が DUSt3R から強化されたか
- Dense matching head: 各 pixel の descriptor を出し、view 間の dense correspondence を作る
- Metric-aware pointmap: 物理 scale により近い 3D を出す
- より大規模・多様な training data
これにより、
- Image matching benchmark で state-of-the-art 級
- Visual localization で 強い
- SfM / MVS の前段としてそのまま使える
という性能になっています。
なぜ matching が geometry に効くのか
Matching は古典的に keypoint + descriptor の世界でしたが、MASt3R では matching が 3D に grounding されています。つまり、descriptor の類似性だけでなく、両 view の同じ 3D 点を指しているかどうかが直接学習されます。
これにより、
- Repetitive structure に強い
- Extreme viewpoint change に強い
- Wide baseline でも対応がつく
ようになります。
MASt3R-SfM
MASt3R をベースに、複数 view にスケールする MASt3R-SfM が提案されています。Pair-wise pointmap と matching を global に揃え、COLMAP に近いような multi-view reconstruction を、calibration なしで実現します。
VGGT との関係
VGGT も「multi-view geometry を一つの transformer で扱う」方向ですが、
- MASt3R 系: pair-wise pointmap + global alignment
- VGGT 系: multi-view を transformer に直接入れて統合推論
という違いがあります。両者は補完的に発展しています。
数式で見る MASt3R と MASt3R-SfM
MASt3R は、DUSt3R に matching head を追加し、image pair に対して pointmap だけでなく、pixel-wise correspondence の信頼度 も予測します。
MASt3R-SfM では、複数 view の pointmap と correspondence を global に揃える最適化を解きます。View ごとの剛体変換 と global scale を未知量として、次のような objective を最小化します。
この式の気持ちは、「pair ごとに predict された 3D 点が、view 同士の剛体変換と scale を通して同じ世界座標で一致するように、camera の位置・向き・scale を一括で決める」というものです。COLMAP に近い multi-view reconstruction を、明示的な feature matching と RANSAC を介さずに行えるのが特徴です。
関連ページ
主なソース
- MASt3R paper: https://arxiv.org/abs/2406.09756
- MASt3R-SfM paper: https://arxiv.org/abs/2409.19152
- MASt3R GitHub: https://github.com/naver/mast3r