Large Reconstruction Models

Large Reconstruction Models (LRM) は、入力 image (または multi-view) から、1 回の feed-forward 推論で 3D を生成する大規模 transformer です。Per-asset optimization を必要とせず、秒オーダーで 3D asset が得られる点が大きな特徴です。

なぜ「Large」なのか

LRM の核心は、

大規模 3D dataset (Objaverse など) での pretraining
Transformer による image-to-3D 写像
Triplane や 3D Gaussian など differentiable な 3D 表現

の組み合わせです。Generative model の世界で起きた「foundation model」化が、3D Reconstruction でも起きている流れと言えます。

系譜

Model	入力	出力
LRM	Single image	Triplane NeRF
Instant3D	Text → multi-view → 3D	NeRF
Splatter Image	Single image	3D Gaussians
GS-LRM	Few-view images	3D Gaussians
TripoSR	Single image	Triplane NeRF
LGM	Multi-view	3D Gaussians

SDS-based との比較

観点	SDS-based (DreamFusion 系)	LRM 系
計算時間	数分〜数時間 / asset	秒オーダー
必要データ	3D データ不要	大規模 3D dataset 必要
品質	高品質まで到達可能	データ分布内では非常に強い
多様性	高い	学習データに依存
Pipeline	per-asset optimization	feed-forward

なぜ multi-view 入力が増えているのか

Single image LRM では、未観測領域の hallucination がどうしても入ります。最近の主流は、

Multi-View Diffusion で複数 view を生成する
それを LRM 系で 3D に変換する

という 2 段構成です。これにより、speed と quality の両立がしやすくなります。

数式で見る feed-forward reconstruction

Large Reconstruction Model（LRM）系では、入力画像 $I$ から三次元表現 $\mathbf{S}$ を直接予測します。

\mathbf{S}=F_\theta(I)

Training では、予測した $\mathbf{S}$ を複数の target view に render して supervision を与えます。

\mathcal{L}=\sum_{v}\ell\left(R(F_\theta(I),\mathbf{K}_v,\mathbf{T}_v), I_v\right)

この式の気持ちは、「単一または少数の入力 view から、未観測 view も説明できる 3D 表現を一発で予測する」というものです。Per-scene optimization と違って高速ですが、見えていない背面や薄い構造は training data から学んだ prior に強く依存します。

主なソース

LRM: https://arxiv.org/abs/2311.04400
Instant3D: https://arxiv.org/abs/2311.06214
GS-LRM: https://arxiv.org/abs/2404.19702
TripoSR: https://arxiv.org/abs/2403.02151
LGM: https://arxiv.org/abs/2402.05054

なぜ「Large」なのか​

系譜​

SDS-based との比較​

なぜ multi-view 入力が増えているのか​

数式で見る feed-forward reconstruction​

関連ページ​

主なソース​

なぜ「Large」なのか

系譜

SDS-based との比較

なぜ multi-view 入力が増えているのか

数式で見る feed-forward reconstruction

関連ページ

主なソース