Jensen-Shannon Divergence

Jensen-Shannon Divergence（以下 JS Divergence）は、二つの probability distribution の近さを測る divergence です。KL Divergence をもとに構成されますが、KL Divergence と違って symmetric であり、より扱いやすい性質を持ちます。

定義

JS Divergence は、二つの distribution $p$ と $q$ の中間にある mixture distribution を使って定義されます。

D_{JS}(p \,\|\, q) = \frac{1}{2}D_{KL}\!\left(p \,\Big\|\, \frac{p + q}{2}\right) + \frac{1}{2}D_{KL}\!\left(q \,\Big\|\, \frac{p + q}{2}\right)

ここで、 $\frac{p + q}{2}$ は、 $p$ と $q$ の平均的な distribution です。 $p$ と $q$ の両方を同じ中間 distribution と比較するため、JS Divergence は symmetric になります。

D_{JS}(p \,\|\, q) = D_{JS}(q \,\|\, p)

KL Divergence と Jensen-Shannon Divergence の比較

画像出典: Lilian Weng, “From GAN to WGAN”。 $p$ と $q$ の二つの Gaussian distribution と、それらの平均 $m = (p + q) / 2$ が示されています。KL Divergence は非対称ですが、JS Divergence は対称です。

KL Divergence との違い

KL Divergence は、 $p$ を基準にするか、 $q$ を基準にするかによって意味が変わります。一方で、JS Divergence は二つの distribution を対等に扱います。

この性質によって、JS Divergence は「二つの distribution がどれくらい似ているか」を測る用途に向いています。

GAN の objective との関係

GAN では、real data distribution を $p_r$ 、Generator が作る distribution を $p_g$ と書きます。Discriminator が optimal であるとき、vanilla GAN の loss は、 $p_r$ と $p_g$ の JS Divergence と次のように関係します。

L(G, D^{*}) = 2D_{JS}(p_r \,\|\, p_g) - 2\log 2

つまり、vanilla GAN は、Discriminator が十分に最適化されているという条件のもとでは、Generator の distribution $p_g$ を real data distribution $p_r$ に近づけるように、JS Divergence を小さくしていると解釈できます。

弱点

JS Divergence は、二つの distribution の support が重なっている場合には有用です。しかし、 $p_r$ と $p_g$ の support がほとんど重ならない場合には、JS Divergence は急に一定値へ張り付きやすく、Generator に滑らかな gradient を与えにくくなります。

高次元の画像生成では、real data distribution と generated distribution が低次元の manifold 上にあり、それらが disjoint になりやすいと考えられます。この問題が、GAN の training instability や vanishing gradient につながります。

定義​

KL Divergence との違い​

GAN の objective との関係​

弱点​

関連ページ​

定義

KL Divergence との違い

GAN の objective との関係

弱点

関連ページ