Skip to main content

4D Generation

4D Generation は、text、image、video などから time-varying な 3D scene (4D) を生成する分野です。3D Generation を時間軸へ拡張したものに相当します。

入力と出力

入力としては、

  • Text prompt
  • 単一 image + motion description
  • 単一 video
  • Multi-view video

があり、出力は時間方向に変化する 3D 表現 (dynamic NeRF、deformable 3DGS、animated mesh など) です。

代表的 approach

Approach
Text → 4D via SDSMAV3D、4D-fy、Animate3D
Image / video → 4DConsistent4D、DreamGaussian4D、4DGen
Video diffusion から 4D 蒸留Make-Your-Video、Animate124
Native 4D diffusion4D representation の直接生成

Video diffusion との関係

Video Diffusion Models と 4D Generation は近接しています。Video diffusion は時間方向に自然な image sequence を出しますが、view が固定されています。4D generation は、任意の view と任意の時刻で render できることを狙います。

4D Reconstruction との違い

観点4D Reconstruction4D Generation
入力撮影された videoText / image / video prompt
目的撮影対象を忠実に復元Plausible な dynamic 3D を作る
Ground truth撮影 video存在しない (prompt との整合のみ)

課題

  • 時間 + 視点の両方で consistency を保つ
  • Long horizon での deformation の暴走
  • Physical plausibility
  • Mesh / Gaussian の topology change
  • 評価指標 (PSNR / FVD / CLIP / 人手評価)

関連ページ

主なソース