4D Generation

4D Generation は、text、image、video などから time-varying な 3D scene (4D) を生成する分野です。3D Generation を時間軸へ拡張したものに相当します。

入力と出力

入力としては、

Text prompt
単一 image + motion description
単一 video
Multi-view video

があり、出力は時間方向に変化する 3D 表現 (dynamic NeRF、deformable 3DGS、animated mesh など) です。

代表的 approach

Approach	例
Text → 4D via SDS	MAV3D、4D-fy、Animate3D
Image / video → 4D	Consistent4D、DreamGaussian4D、4DGen
Video diffusion から 4D 蒸留	Make-Your-Video、Animate124
Native 4D diffusion	4D representation の直接生成

Video diffusion との関係

Video Diffusion Models と 4D Generation は近接しています。Video diffusion は時間方向に自然な image sequence を出しますが、view が固定されています。4D generation は、任意の view と任意の時刻で render できることを狙います。

4D Reconstruction との違い

観点	4D Reconstruction	4D Generation
入力	撮影された video	Text / image / video prompt
目的	撮影対象を忠実に復元	Plausible な dynamic 3D を作る
Ground truth	撮影 video	存在しない (prompt との整合のみ)

課題

時間 + 視点の両方で consistency を保つ
Long horizon での deformation の暴走
Physical plausibility
Mesh / Gaussian の topology change
評価指標 (PSNR / FVD / CLIP / 人手評価)

主なソース

MAV3D: https://arxiv.org/abs/2301.11280
4D-fy: https://arxiv.org/abs/2311.17984
Consistent4D: https://arxiv.org/abs/2311.02848
DreamGaussian4D: https://arxiv.org/abs/2312.17142
Animate124: https://arxiv.org/abs/2311.14603

入力と出力​

代表的 approach​

Video diffusion との関係​

4D Reconstruction との違い​

課題​

関連ページ​

主なソース​

入力と出力

代表的 approach

Video diffusion との関係

4D Reconstruction との違い

課題

関連ページ

主なソース