Large Reconstruction Models
Large Reconstruction Models (LRM) は、入力 image (または multi-view) から、1 回の feed-forward 推論で 3D を生成する大規模 transformer です。Per-asset optimization を必要とせず、秒オーダーで 3D asset が得られる点が大きな特徴です。
なぜ「Large」なのか
LRM の核心は、
- 大規模 3D dataset (Objaverse など) での pretraining
- Transformer による image-to-3D 写像
- Triplane や 3D Gaussian など differentiable な 3D 表現
の組み合わせです。Generative model の世界で起きた「foundation model」化が、3D Reconstruction でも起きている流れと言えます。
系譜
| Model | 入力 | 出力 |
|---|---|---|
| LRM | Single image | Triplane NeRF |
| Instant3D | Text → multi-view → 3D | NeRF |
| Splatter Image | Single image | 3D Gaussians |
| GS-LRM | Few-view images | 3D Gaussians |
| TripoSR | Single image | Triplane NeRF |
| LGM | Multi-view | 3D Gaussians |
SDS-based との比較
| 観点 | SDS-based (DreamFusion 系) | LRM 系 |
|---|---|---|
| 計算時間 | 数分〜数時間 / asset | 秒オーダー |
| 必要データ | 3D データ不要 | 大規模 3D dataset 必要 |
| 品質 | 高品質まで到達可能 | データ分布内では非常に強い |
| 多様性 | 高い | 学習データに依存 |
| Pipeline | per-asset optimization | feed-forward |
なぜ multi-view 入力が増えているのか
Single image LRM では、未観測領域の hallucination がどうしても入ります。最近の主流は、
- Multi-View Diffusion で複数 view を生成する
- それを LRM 系で 3D に変換する
という 2 段構成です。これにより、speed と quality の両立がしやすくなります。
数式で見る feed-forward reconstruction
Large Reconstruction Model(LRM)系では、入力画像 から三次元表現 を直接予測します。
Training では、予測した を複数の target view に render して supervision を与えます。
この式の気持ちは、「単一または少数の入力 view から、未観測 view も説明できる 3D 表現を一発で予測する」というものです。Per-scene optimization と違って高速ですが、見えていない背面や薄い構造は training data から学んだ prior に強く依存します。
関連ページ
- Multi-View Diffusion for 3D
- DreamFusion and Optimization-Based 3D
- Native 3D Generation
- Gaussian Splatting Overview
主なソース
- LRM: https://arxiv.org/abs/2311.04400
- Instant3D: https://arxiv.org/abs/2311.06214
- GS-LRM: https://arxiv.org/abs/2404.19702
- TripoSR: https://arxiv.org/abs/2403.02151
- LGM: https://arxiv.org/abs/2402.05054