Skip to main content

Large Reconstruction Models

Large Reconstruction Models (LRM) は、入力 image (または multi-view) から、1 回の feed-forward 推論で 3D を生成する大規模 transformer です。Per-asset optimization を必要とせず、秒オーダーで 3D asset が得られる点が大きな特徴です。

なぜ「Large」なのか

LRM の核心は、

  • 大規模 3D dataset (Objaverse など) での pretraining
  • Transformer による image-to-3D 写像
  • Triplane や 3D Gaussian など differentiable な 3D 表現

の組み合わせです。Generative model の世界で起きた「foundation model」化が、3D Reconstruction でも起きている流れと言えます。

系譜

Model入力出力
LRMSingle imageTriplane NeRF
Instant3DText → multi-view → 3DNeRF
Splatter ImageSingle image3D Gaussians
GS-LRMFew-view images3D Gaussians
TripoSRSingle imageTriplane NeRF
LGMMulti-view3D Gaussians

SDS-based との比較

観点SDS-based (DreamFusion 系)LRM 系
計算時間数分〜数時間 / asset秒オーダー
必要データ3D データ不要大規模 3D dataset 必要
品質高品質まで到達可能データ分布内では非常に強い
多様性高い学習データに依存
Pipelineper-asset optimizationfeed-forward

なぜ multi-view 入力が増えているのか

Single image LRM では、未観測領域の hallucination がどうしても入ります。最近の主流は、

  1. Multi-View Diffusion で複数 view を生成する
  2. それを LRM 系で 3D に変換する

という 2 段構成です。これにより、speed と quality の両立がしやすくなります。

数式で見る feed-forward reconstruction

Large Reconstruction Model(LRM)系では、入力画像 II から三次元表現 S\mathbf{S} を直接予測します。

S=Fθ(I)\mathbf{S}=F_\theta(I)

Training では、予測した S\mathbf{S} を複数の target view に render して supervision を与えます。

L=v(R(Fθ(I),Kv,Tv),Iv)\mathcal{L}=\sum_{v}\ell\left(R(F_\theta(I),\mathbf{K}_v,\mathbf{T}_v), I_v\right)

この式の気持ちは、「単一または少数の入力 view から、未観測 view も説明できる 3D 表現を一発で予測する」というものです。Per-scene optimization と違って高速ですが、見えていない背面や薄い構造は training data から学んだ prior に強く依存します。

関連ページ

主なソース