Skip to main content

Native 3D Generation

Native 3D Generation は、画像を経由せずに、3D 空間内で直接 generative model を回す方向です。Point cloud、mesh、voxel、SDF、3D Gaussian などの表現に対して diffusion / autoregressive / flow を適用します。

なぜ native 3D なのか

Multi-view diffusion は強力ですが、

  • View 間 consistency の保証が難しい
  • 後段 3D 化が必要
  • Topology や物理的整合性の制御が間接的

という弱みがあります。Native 3D は、3D 空間で生成することで、これらを直接扱えることを狙います。

表現別の流派

表現代表例
Point cloudPoint-E、PVD、LION
Voxel / SDF3D ShapeNet diffusion、SDF diffusion、Mosaic-SDF
MeshMeshGPT、PolyDiff、MeshAnything
Triplane / latentShap-E、3DShape2VecSet、CLAY
3D GaussianGaussianAnything、L3DG

Mesh-native generation

人間が編集しやすい形式である mesh を直接生成する方向 (MeshGPT、MeshAnything、PolyDiff など) は、特に top conference でも活発です。Topology を autoregressive token として扱うことで、artist-friendly な mesh を出力します。

Latent 3D diffusion

3D shape を VAE 系で latent 化し、latent diffusion を回す方向 (Shap-E、3DShape2VecSet、CLAY) も主流です。Image の latent diffusion と同じ発想を 3D に持ち込んだものです。

課題

  • 3D 表現に応じて異なる architecture が必要
  • 評価指標が安定していない
  • Texture と geometry を分離するか統合するか
  • Articulation、physics、material の扱いが未成熟

関連ページ

主なソース