Volume Rendering and Splatting

NeRF と 3D Gaussian Splatting は、どちらも multi-view image から scene を再構成し、新しい view を rendering するための表現です。両者は見た目には似た結果を出しますが、rendering の計算の仕方が大きく違います。NeRF は ray 上の連続的な volume density を積分し、3DGS は明示的な Gaussian primitive を画像平面へ splat して alpha compositing します。

NeRF の volume rendering

Camera ray を次のように書きます。

\mathbf{r}(t)=\mathbf{o}+t\mathbf{d}

ここで、 $\mathbf{o}$ は camera center、 $\mathbf{d}$ は ray direction、 $t$ は ray 上の距離です。NeRF は位置と方向から density $\sigma$ と color $\mathbf{c}$ を出します。

(\sigma(t),\mathbf{c}(t))=F_\theta(\mathbf{r}(t),\mathbf{d})

Ray の色は volume rendering equation で表されます。

\mathbf{C}(\mathbf{r})= \int_{t_n}^{t_f}T(t)\sigma(\mathbf{r}(t))\mathbf{c}(\mathbf{r}(t),\mathbf{d})\,dt

T(t)=\exp\left(-\int_{t_n}^{t}\sigma(\mathbf{r}(s))\,ds\right)

各項の意味は次の通りです。

$\sigma$ はその位置で ray がどれくらい吸収・散乱されるかを表す density です。
$\mathbf{c}$ はその位置から見える色です。
$T(t)$ は ray が距離 $t$ まで遮られずに届く透過率です。

この式の気持ちは、「camera から ray を飛ばし、手前から奥へ進みながら、まだ透過している分だけ各位置の色を積分する」というものです。

実装では、連続積分を sample 点の和で近似します。

\hat{\mathbf{C}}(\mathbf{r})= \sum_i T_i\alpha_i\mathbf{c}_i, \qquad \alpha_i=1-\exp(-\sigma_i\Delta_i)

T_i=\prod_{j<i}(1-\alpha_j)

3D Gaussian Splatting の alpha compositing

3DGS では、scene を Gaussian primitive の集合として持ちます。Gaussian $i$ は中心 $\boldsymbol{\mu}_i$ 、共分散 $\boldsymbol{\Sigma}_i$ 、opacity $\alpha_i$ 、色 $\mathbf{c}_i$ を持ちます。

G_i(\mathbf{x})=\exp\left(-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu}_i)^\top\boldsymbol{\Sigma}_i^{-1}(\mathbf{x}-\boldsymbol{\mu}_i)\right)

Rendering では、Gaussian を画像平面に projection し、pixel に対する寄与を計算します。Depth 順に並べた Gaussian の色は、NeRF と同じ形の alpha compositing で書けます。

\mathbf{C}(\mathbf{p})= \sum_i T_i\alpha_i(\mathbf{p})\mathbf{c}_i, \qquad T_i=\prod_{j<i}(1-\alpha_j(\mathbf{p}))

ここで、 $\alpha_i(\mathbf{p})$ は pixel $\mathbf{p}$ における Gaussian $i$ の不透明度です。この式の気持ちは、「ray 上を細かく sample する代わりに、画像平面に投影された楕円 Gaussian を手前から順に重ねる」というものです。

両者の比較

観点	NeRF volume rendering	Gaussian splatting
表現	暗黙 neural field	明示 Gaussian primitive
rendering	ray marching / sampling	rasterization / splatting
色の合成	volume rendering integral	alpha compositing
training	scene ごとの neural optimization	scene ごとの primitive optimization
強み	滑らかな連続表現	高速 rendering、編集しやすい
弱み	rendering が遅い	primitive 管理、aliasing、surface 抽出

重要なのは、どちらも最終的な色合成は $\sum_i T_i\alpha_i\mathbf{c}_i$ という形に近いことです。ただし、NeRF では $i$ が ray 上の sample 点であり、3DGS では $i$ が投影された Gaussian primitive です。この違いが速度、memory、編集性、surface extraction の違いにつながります。

主なソース

NeRF paper: https://arxiv.org/abs/2003.08934
3D Gaussian Splatting paper: https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/
3D Gaussian Splatting survey: https://arxiv.org/abs/2401.03890

NeRF の volume rendering​

3D Gaussian Splatting の alpha compositing​

両者の比較​

関連ページ​

主なソース​

NeRF の volume rendering

3D Gaussian Splatting の alpha compositing

両者の比較

関連ページ

主なソース