Autoencoder

Autoencoder は、input を一度 low-dimensional な representation に圧縮し、そこから元の input を復元する neural network です。通常は、encoder と decoder という二つの部分から構成されます。

Autoencoder architecture

画像出典: Lilian Weng, “From Autoencoder to Beta-VAE”。Encoder が input を latent representation に変換し、decoder が reconstruction を生成します。

構造

Autoencoder は、次の二つの関数として表せます。

z = f_\phi(x)

\hat{x} = g_\theta(z)

ここで、 $f_\phi$ は encoder、 $g_\theta$ は decoder です。 $z$ は latent representation であり、 $\hat{x}$ は reconstruction です。

Autoencoder の目的は、input $x$ と reconstruction $\hat{x}$ の差を小さくすることです。代表的には、次のような reconstruction loss を最小化します。

\mathcal{L}(x, \hat{x}) = \|x - \hat{x}\|^2

Autoencoder は、単に input をコピーするだけではなく、bottleneck を通じて data の重要な構造を latent representation に押し込めることを狙います。

Latent dimension が input dimension よりも小さい場合、network は input の情報をすべてそのまま通すことができません。そのため、reconstruction に必要な重要な factor を学習する必要があります。

Autoencoder は encoder $E_\phi$ と decoder $D_\theta$ からなります。入力 $x$ を latent $z$ に圧縮し、そこから復元 $\hat{x}$ を作ります。

z=E_\phi(x), \qquad \hat{x}=D_\theta(z)

最も基本的な training objective は reconstruction loss です。

\mathcal{L}_{\mathrm{rec}}=\|x-D_\theta(E_\phi(x))\|_2^2

この式の気持ちは、「入力をそのまま覚えるのではなく、狭い latent bottleneck を通して必要な情報だけを残し、そこから元の入力を復元する」というものです。Latent dimension を小さくすると圧縮は強くなりますが、細部の復元は難しくなります。