4D Generation
4D Generation は、text、image、video などから time-varying な 3D scene (4D) を生成する分野です。3D Generation を時間軸へ拡張したものに相当します。
入力と出力
入力としては、
- Text prompt
- 単一 image + motion description
- 単一 video
- Multi-view video
があり、出力は時間方向に変化する 3D 表現 (dynamic NeRF、deformable 3DGS、animated mesh など) です。
代表的 approach
| Approach | 例 |
|---|---|
| Text → 4D via SDS | MAV3D、4D-fy、Animate3D |
| Image / video → 4D | Consistent4D、DreamGaussian4D、4DGen |
| Video diffusion から 4D 蒸留 | Make-Your-Video、Animate124 |
| Native 4D diffusion | 4D representation の直接生成 |
Video diffusion との関係
Video Diffusion Models と 4D Generation は近接しています。Video diffusion は時間方向に自然な image sequence を出しますが、view が固定されています。4D generation は、任意の view と任意の時刻で render できることを狙います。
4D Reconstruction との違い
| 観点 | 4D Reconstruction | 4D Generation |
|---|---|---|
| 入力 | 撮影された video | Text / image / video prompt |
| 目的 | 撮影対象を忠実に復元 | Plausible な dynamic 3D を作る |
| Ground truth | 撮影 video | 存在しない (prompt との整合のみ) |
課題
- 時間 + 視点の両方で consistency を保つ
- Long horizon での deformation の暴走
- Physical plausibility
- Mesh / Gaussian の topology change
- 評価指標 (PSNR / FVD / CLIP / 人手評価)
関連ページ
- 3D Generation Overview
- 4D Reconstruction Overview
- Video Diffusion Models
- Gaussian Splatting Overview
主なソース
- MAV3D: https://arxiv.org/abs/2301.11280
- 4D-fy: https://arxiv.org/abs/2311.17984
- Consistent4D: https://arxiv.org/abs/2311.02848
- DreamGaussian4D: https://arxiv.org/abs/2312.17142
- Animate124: https://arxiv.org/abs/2311.14603