Native 3D Generation

Native 3D Generation は、画像を経由せずに、3D 空間内で直接 generative model を回す方向です。Point cloud、mesh、voxel、SDF、3D Gaussian などの表現に対して diffusion / autoregressive / flow を適用します。

なぜ native 3D なのか

Multi-view diffusion は強力ですが、

View 間 consistency の保証が難しい
後段 3D 化が必要
Topology や物理的整合性の制御が間接的

という弱みがあります。Native 3D は、3D 空間で生成することで、これらを直接扱えることを狙います。

表現別の流派

表現	代表例
Point cloud	Point-E、PVD、LION
Voxel / SDF	3D ShapeNet diffusion、SDF diffusion、Mosaic-SDF
Mesh	MeshGPT、PolyDiff、MeshAnything
Triplane / latent	Shap-E、3DShape2VecSet、CLAY
3D Gaussian	GaussianAnything、L3DG

Mesh-native generation

人間が編集しやすい形式である mesh を直接生成する方向 (MeshGPT、MeshAnything、PolyDiff など) は、特に top conference でも活発です。Topology を autoregressive token として扱うことで、artist-friendly な mesh を出力します。

Latent 3D diffusion

3D shape を VAE 系で latent 化し、latent diffusion を回す方向 (Shap-E、3DShape2VecSet、CLAY) も主流です。Image の latent diffusion と同じ発想を 3D に持ち込んだものです。

課題

3D 表現に応じて異なる architecture が必要
評価指標が安定していない
Texture と geometry を分離するか統合するか
Articulation、physics、material の扱いが未成熟

主なソース

Shap-E: https://arxiv.org/abs/2305.02463
Point-E: https://arxiv.org/abs/2212.08751
MeshGPT: https://arxiv.org/abs/2311.15475
CLAY: https://arxiv.org/abs/2406.13897
3DShape2VecSet: https://arxiv.org/abs/2301.11445

なぜ native 3D なのか​

表現別の流派​

Mesh-native generation​

Latent 3D diffusion​

課題​

関連ページ​

主なソース​

なぜ native 3D なのか

表現別の流派

Mesh-native generation

Latent 3D diffusion

課題

関連ページ

主なソース