Native 3D Generation
Native 3D Generation は、画像を経由せずに、3D 空間内で直接 generative model を回す方向です。Point cloud、mesh、voxel、SDF、3D Gaussian などの表現に対して diffusion / autoregressive / flow を適用します。
なぜ native 3D なのか
Multi-view diffusion は強力ですが、
- View 間 consistency の保証が難しい
- 後段 3D 化が必要
- Topology や物理的整合性の制御が間接的
という弱みがあります。Native 3D は、3D 空間で生成することで、これらを直接扱えることを狙います。
表現別の流派
| 表現 | 代表例 |
|---|---|
| Point cloud | Point-E、PVD、LION |
| Voxel / SDF | 3D ShapeNet diffusion、SDF diffusion、Mosaic-SDF |
| Mesh | MeshGPT、PolyDiff、MeshAnything |
| Triplane / latent | Shap-E、3DShape2VecSet、CLAY |
| 3D Gaussian | GaussianAnything、L3DG |
Mesh-native generation
人間が編集しやすい形式である mesh を直接生成する方向 (MeshGPT、MeshAnything、PolyDiff など) は、特に top conference でも活発です。Topology を autoregressive token として扱うことで、artist-friendly な mesh を出力します。
Latent 3D diffusion
3D shape を VAE 系で latent 化し、latent diffusion を回す方向 (Shap-E、3DShape2VecSet、CLAY) も主流です。Image の latent diffusion と同じ発想を 3D に持ち込んだものです。
課題
- 3D 表現に応じて異なる architecture が必要
- 評価指標が安定していない
- Texture と geometry を分離するか統合するか
- Articulation、physics、material の扱いが未成熟
関連ページ
- Multi-View Diffusion for 3D
- Large Reconstruction Models
- Diffusion Models
- Point Clouds, Meshes, and TSDF
主なソース
- Shap-E: https://arxiv.org/abs/2305.02463
- Point-E: https://arxiv.org/abs/2212.08751
- MeshGPT: https://arxiv.org/abs/2311.15475
- CLAY: https://arxiv.org/abs/2406.13897
- 3DShape2VecSet: https://arxiv.org/abs/2301.11445