网络结构
- 网络输出对数方差,事实使用\(e^\sigma\),能保证方差非负
李宏毅公式推导
- 目标是让似然函数最大化,也就是最大化\(\sum_x \log P(x)\),推导可得相当于最大化变分下界(Evidence Lower Bound,\(ELBO(q)\))
- 为什么要通过求解\(q\)来实现似然函数最大化/ELBO最大化呢?因为优化\(q\)时,与\(P(x)\)无关,相当于最小化KL散度
- 进一步拆解变分下界
- 变分下界的两个部分分别可用在网络中建模,两个损失函数同时优化就是VAE
- 期望部分:通过带采样的Auto-Encoder实现,损失函数为Auto-Encoder的损失函数
- KL散度部分【TODO:有时间手动推导一下】:使用一个关于均值和方差的损失函数可以实现,详情看原始论文可推导Auto-Encoding Variational Bayes
- 假设了\(p_\theta(z)\)是均值为0方差为1的标准正太分布\(N(0,I)\),所以这里本质是尽量保证分布\(q(z|x)\)尽可能接近标准正太分布
- KL散度部分的其他证明: