Skip to main content

GS-LRM

GS-LRM (Gaussian Splatting Large Reconstruction Model) は、4 枚程度の image から、1 回の transformer forward で 3D Gaussian を直接予測する model です。Per-scene optimization を必要としないため、秒オーダーで 3D を得られます。

何が新しいのか

通常の 3DGS は、

のように per-scene optimization が必要でした。GS-LRM は、

のように、事前学習された transformer に通すだけで Gaussian を出します。Pixel ごとに Gaussian parameter (position、covariance、color、opacity) を予測する設計です。

なぜ動くのか

  • 大規模 multi-view dataset で transformer を pretrain
  • Pixel ごとの local geometry を Gaussian で表現する induction
  • 多 view 間の attention で 3D 一貫性を確保

これによって、未知の object でも feed-forward に 3D を出せるようになります。

LRM 系の中での位置づけ

Model出力表現
LRMTriplane NeRF
TripoSRTriplane NeRF
Splatter Image3D Gaussians (single image)
GS-LRM3D Gaussians (few-view)
LGM3D Gaussians (multi-view)

GS-LRM は、3D Gaussian 表現の利点 (real-time rendering、editing) と LRM の高速性を併せ持つ位置です。

数式で見る feed-forward Gaussian prediction

GS-LRM 系の model は、入力画像集合 I\mathcal{I} から Gaussian 集合 G\mathcal{G} を一回の forward pass で予測します。

G=Fθ(I)\mathcal{G}=F_\theta(\mathcal{I})

予測された Gaussian を rendering function RR に通し、各 training view vv の画像と比較します。

L=vV(R(G,Kv,Tv),Iv)\mathcal{L}=\sum_{v\in\mathcal{V}} \ell\left(R(\mathcal{G},\mathbf{K}_v,\mathbf{T}_v), I_v\right)

ここで、Kv\mathbf{K}_v は intrinsics、Tv\mathbf{T}_v は camera pose、IvI_v は target image です。この式の気持ちは、「scene ごとに長時間最適化する代わりに、network が画像から直接 Gaussian scene representation を推定できるように学習する」というものです。Per-scene optimization の 3DGS と比べて、高速化できる一方で、training distribution から外れた scene では汎化が課題になります。

関連ページ

主なソース