GS-LRM

GS-LRM (Gaussian Splatting Large Reconstruction Model) は、4 枚程度の image から、1 回の transformer forward で 3D Gaussian を直接予測する model です。Per-scene optimization を必要としないため、秒オーダーで 3D を得られます。

何が新しいのか

通常の 3DGS は、

のように per-scene optimization が必要でした。GS-LRM は、

のように、事前学習された transformer に通すだけで Gaussian を出します。Pixel ごとに Gaussian parameter (position、covariance、color、opacity) を予測する設計です。

なぜ動くのか

大規模 multi-view dataset で transformer を pretrain
Pixel ごとの local geometry を Gaussian で表現する induction
多 view 間の attention で 3D 一貫性を確保

これによって、未知の object でも feed-forward に 3D を出せるようになります。

LRM 系の中での位置づけ

Model	出力表現
LRM	Triplane NeRF
TripoSR	Triplane NeRF
Splatter Image	3D Gaussians (single image)
GS-LRM	3D Gaussians (few-view)
LGM	3D Gaussians (multi-view)

GS-LRM は、3D Gaussian 表現の利点 (real-time rendering、editing) と LRM の高速性を併せ持つ位置です。

数式で見る feed-forward Gaussian prediction

GS-LRM 系の model は、入力画像集合 $\mathcal{I}$ から Gaussian 集合 $\mathcal{G}$ を一回の forward pass で予測します。

\mathcal{G}=F_\theta(\mathcal{I})

予測された Gaussian を rendering function $R$ に通し、各 training view $v$ の画像と比較します。

\mathcal{L}=\sum_{v\in\mathcal{V}} \ell\left(R(\mathcal{G},\mathbf{K}_v,\mathbf{T}_v), I_v\right)

ここで、 $\mathbf{K}_v$ は intrinsics、 $\mathbf{T}_v$ は camera pose、 $I_v$ は target image です。この式の気持ちは、「scene ごとに長時間最適化する代わりに、network が画像から直接 Gaussian scene representation を推定できるように学習する」というものです。Per-scene optimization の 3DGS と比べて、高速化できる一方で、training distribution から外れた scene では汎化が課題になります。

主なソース

GS-LRM paper: https://arxiv.org/abs/2404.19702
GS-LRM project page: https://sai-bi.github.io/project/gs-lrm/

何が新しいのか​

なぜ動くのか​

LRM 系の中での位置づけ​

数式で見る feed-forward Gaussian prediction​

関連ページ​

主なソース​

何が新しいのか

なぜ動くのか

LRM 系の中での位置づけ

数式で見る feed-forward Gaussian prediction

関連ページ

主なソース