DL——VAE


网络结构

  • 网络输出对数方差,事实使用\(e^\sigma\),能保证方差非负

李宏毅公式推导

  • 目标是让似然函数最大化,也就是最大化\(\sum_x \log P(x)\),推导可得相当于最大化变分下界(Evidence Lower Bound,\(ELBO(q)\))
  • 为什么要通过求解\(q\)来实现似然函数最大化/ELBO最大化呢?因为优化\(q\)时,与\(P(x)\)无关,相当于最小化KL散度
  • 进一步拆解变分下界
  • 变分下界的两个部分分别可用在网络中建模,两个损失函数同时优化就是VAE
    • 期望部分:通过带采样的Auto-Encoder实现,损失函数为Auto-Encoder的损失函数
    • KL散度部分【TODO:有时间手动推导一下】:使用一个关于均值和方差的损失函数可以实现,详情看原始论文可推导Auto-Encoding Variational Bayes
      • 假设了\(p_\theta(z)\)是均值为0方差为1的标准正太分布\(N(0,I)\),所以这里本质是尽量保证分布\(q(z|x)\)尽可能接近标准正太分布
    • KL散度部分的其他证明

其他公式推导


AE-VAE-CVAE