3D Generation Overview
3D Generation は、text、image、video、sketch のような入力から、3D asset や scene を生成する分野です。CVPR / ICCV / ECCV / SIGGRAPH / NeurIPS で、近年とくに伸びているテーマの一つです。Diffusion model、NeRF、3D Gaussian Splatting、mesh generation、large reconstruction model が交差します。
大きな分類
| 分類 | 代表例 | 特徴 |
|---|---|---|
| Optimization-based | DreamFusion、ProlificDreamer | 強力な 2D diffusion を per-asset に蒸留。低速だが品質が出る。 |
| Feed-forward | LRM、GS-LRM、Instant3D | 一回の推論で 3D を出す。高速だが学習データが重要。 |
| Native 3D | Point cloud diffusion、mesh diffusion | 3D 空間で直接生成。Topology の扱いが鍵。 |
| Multi-view diffusion | Zero-1-to-3、MVDream | 複数 view を生成して 3D 化する中間表現。 |
詳細ページ
| ページ | 内容 |
|---|---|
| Score Distillation Sampling | DreamFusion の核となる SDS の考え方 |
| DreamFusion and Optimization-Based 3D | NeRF + 2D diffusion による text-to-3D |
| Multi-View Diffusion for 3D | Zero-1-to-3、MVDream など |
| Large Reconstruction Models | LRM、GS-LRM、Instant3D |
| Native 3D Generation | Point / mesh / Gaussian の直接生成 |
| 4D Generation | Text / image から動的 3D を生成 |
3D Reconstruction との違い
| 観点 | 3D Reconstruction | 3D Generation |
|---|---|---|
| 入力 | 実写 image / video / sensor | Text / 単一 image / sketch |
| 目的 | 観測対象を忠実に復元 | ありえそうな 3D を作る |
| 強み | Photometric accuracy | Creativity、未観測部分の補完 |
| 弱み | 観測のない領域は埋まらない | Ground truth との一致は保証されない |
両者は対立するものではなく、3D Generation が unseen view を補い、3D Reconstruction が observed view を支える、という協調関係にあります。
数式で見る 3D generation の学習目的
3D generation は、条件 から三次元表現 を生成する問題として書けます。
ここで、 は text prompt、single image、multi-view images、category label などです。 は mesh、NeRF、Gaussian、triplane、voxel、point cloud などの三次元表現です。
多くの手法では、生成した 3D 表現を differentiable renderer で複数 view に投影し、画像空間の supervision を使います。
ここで、 は intrinsics、 は camera pose、 は target image、 は geometry の regularization です。この式の気持ちは、「三次元そのものを直接観測できなくても、いろいろな角度から render した画像が正しければ、背後の 3D 表現も正しいはずだ」と考えることです。
関連ページ
主なソース
- DreamFusion: https://arxiv.org/abs/2209.14988
- Zero-1-to-3: https://arxiv.org/abs/2303.11328
- MVDream: https://arxiv.org/abs/2308.16512
- LRM: https://arxiv.org/abs/2311.04400
- GS-LRM: https://arxiv.org/abs/2404.19702