GS-LRM
GS-LRM (Gaussian Splatting Large Reconstruction Model) は、4 枚程度の image から、1 回の transformer forward で 3D Gaussian を直接予測する model です。Per-scene optimization を必要としないため、秒オーダーで 3D を得られます。
何が新しいのか
通常の 3DGS は、
のように per-scene optimization が必要でした。GS-LRM は、
のように、事前学習された transformer に通すだけで Gaussian を出します。Pixel ごとに Gaussian parameter (position、covariance、color、opacity) を予測する設計です。
なぜ動くのか
- 大規模 multi-view dataset で transformer を pretrain
- Pixel ごとの local geometry を Gaussian で表現する induction
- 多 view 間の attention で 3D 一貫性を確保
これによって、未知の object でも feed-forward に 3D を出せるようになります。
LRM 系の中での位置づけ
| Model | 出力表現 |
|---|---|
| LRM | Triplane NeRF |
| TripoSR | Triplane NeRF |
| Splatter Image | 3D Gaussians (single image) |
| GS-LRM | 3D Gaussians (few-view) |
| LGM | 3D Gaussians (multi-view) |
GS-LRM は、3D Gaussian 表現の利点 (real-time rendering、editing) と LRM の高速性を併せ持つ位置です。
数式で見る feed-forward Gaussian prediction
GS-LRM 系の model は、入力画像集合 から Gaussian 集合 を一回の forward pass で予測します。
予測された Gaussian を rendering function に通し、各 training view の画像と比較します。
ここで、 は intrinsics、 は camera pose、 は target image です。この式の気持ちは、「scene ごとに長時間最適化する代わりに、network が画像から直接 Gaussian scene representation を推定できるように学習する」というものです。Per-scene optimization の 3DGS と比べて、高速化できる一方で、training distribution から外れた scene では汎化が課題になります。
関連ページ
主なソース
- GS-LRM paper: https://arxiv.org/abs/2404.19702
- GS-LRM project page: https://sai-bi.github.io/project/gs-lrm/