3D Generation Overview

3D Generation は、text、image、video、sketch のような入力から、3D asset や scene を生成する分野です。CVPR / ICCV / ECCV / SIGGRAPH / NeurIPS で、近年とくに伸びているテーマの一つです。Diffusion model、NeRF、3D Gaussian Splatting、mesh generation、large reconstruction model が交差します。

大きな分類

分類	代表例	特徴
Optimization-based	DreamFusion、ProlificDreamer	強力な 2D diffusion を per-asset に蒸留。低速だが品質が出る。
Feed-forward	LRM、GS-LRM、Instant3D	一回の推論で 3D を出す。高速だが学習データが重要。
Native 3D	Point cloud diffusion、mesh diffusion	3D 空間で直接生成。Topology の扱いが鍵。
Multi-view diffusion	Zero-1-to-3、MVDream	複数 view を生成して 3D 化する中間表現。

詳細ページ

ページ	内容
Score Distillation Sampling	DreamFusion の核となる SDS の考え方
DreamFusion and Optimization-Based 3D	NeRF + 2D diffusion による text-to-3D
Multi-View Diffusion for 3D	Zero-1-to-3、MVDream など
Large Reconstruction Models	LRM、GS-LRM、Instant3D
Native 3D Generation	Point / mesh / Gaussian の直接生成
4D Generation	Text / image から動的 3D を生成

3D Reconstruction との違い

観点	3D Reconstruction	3D Generation
入力	実写 image / video / sensor	Text / 単一 image / sketch
目的	観測対象を忠実に復元	ありえそうな 3D を作る
強み	Photometric accuracy	Creativity、未観測部分の補完
弱み	観測のない領域は埋まらない	Ground truth との一致は保証されない

両者は対立するものではなく、3D Generation が unseen view を補い、3D Reconstruction が observed view を支える、という協調関係にあります。

数式で見る 3D generation の学習目的

3D generation は、条件 $c$ から三次元表現 $\mathbf{S}$ を生成する問題として書けます。

\mathbf{S}\sim p_\theta(\mathbf{S}\mid c)

ここで、 $c$ は text prompt、single image、multi-view images、category label などです。 $\mathbf{S}$ は mesh、NeRF、Gaussian、triplane、voxel、point cloud などの三次元表現です。

多くの手法では、生成した 3D 表現を differentiable renderer $R$ で複数 view に投影し、画像空間の supervision を使います。

\mathcal{L}=\sum_{v\in\mathcal{V}}\ell\left(R(\mathbf{S},\mathbf{K}_v,\mathbf{T}_v), I_v\right)+\lambda\Omega(\mathbf{S})

ここで、 $\mathbf{K}_v$ は intrinsics、 $\mathbf{T}_v$ は camera pose、 $I_v$ は target image、 $\Omega$ は geometry の regularization です。この式の気持ちは、「三次元そのものを直接観測できなくても、いろいろな角度から render した画像が正しければ、背後の 3D 表現も正しいはずだ」と考えることです。

主なソース

DreamFusion: https://arxiv.org/abs/2209.14988
Zero-1-to-3: https://arxiv.org/abs/2303.11328
MVDream: https://arxiv.org/abs/2308.16512
LRM: https://arxiv.org/abs/2311.04400
GS-LRM: https://arxiv.org/abs/2404.19702

大きな分類​

詳細ページ​

3D Reconstruction との違い​

数式で見る 3D generation の学習目的​

関連ページ​

主なソース​

大きな分類

詳細ページ

3D Reconstruction との違い

数式で見る 3D generation の学習目的

関連ページ

主なソース