Math——Jenson不等式


Jensen不等式定义

  • 詹森不等式(Jensen’s Inequality)是数学中,特别是概率论和凸分析中的一个重要结果。它描述了凸函数或凹函数在期望值上的性质
  • 对于一个实值的凸函数 \(f\) 和任意一组非负权重 \(\lambda_i\) (满足 \(\sum_{i=1}^{n} \lambda_i = 1\) ),以及对应的随机变量 \(X_i\) 的取值,詹森不等式可以表述为:
    • 如果 \(f\) 是一个凸函数,则有:
      $$ f\left( \sum_{i=1}^{n} \lambda_i X_i \right) \leq \sum_{i=1}^{n} \lambda_i f(X_i) $$
    • 如果 \(f\) 是一个凹函数,则不等号方向相反:
      $$ f\left( \sum_{i=1}^{n} \lambda_i X_i \right) \geq \sum_{i=1}^{n} \lambda_i f(X_i) $$
    • 特别注意:和中文字面意思相反,凸函数是个碗状,凹函数是个伞状

概率论中的Jenson不等式

  • 在概率论的上下文中,这可以被解释为:对于一个凸函数 \(f\) 和一个随机变量 \(X\),我们有:
    $$ f(E[X]) \leq E[f(X)] $$
  • 这里 \(E[\cdot]\) 表示期望值。同样地,对于凹函数,不等号的方向会反过来

Jenson不等式的简单推导

推导詹森不等式的简单方法:

  • 考虑最简单的情况,即当 \(n = 2\) 时,并且 \(\lambda_1 + \lambda_2 = 1\),不失一般性,假设 \(f\) 是一个凸函数。根据凸函数的定义,对于所有 \(0 \leq \lambda \leq 1\) 和任意两个点 \(x_1, x_2\),我们有:
    $$ f(\lambda x_1 + (1-\lambda) x_2) \leq \lambda f(x_1) + (1-\lambda) f(x_2) $$
  • 这个不等式就是詹森不等式在 \(n = 2\) 情况下的形式。为了推广到任意正整数 \(n\) 和任何权重 \(\lambda_i\),我们可以使用归纳法,或者利用凸组合的概念来证明
  • 对于更一般的随机变量 \(X\),通过积分的形式,也可以得到相同的结果。具体来说,设 \(P\) 是 \(X\) 的概率分布,那么对任意凸函数 \(f\),我们有:
    $$ f\left(\int X dP\right) \leq \int f(X) dP $$
  • 这是连续版本的詹森不等式,其中左边是对 \(X\) 的期望应用函数 \(f\),而右边是先对 \(X\) 应用 \(f\) 再求期望

Jenson不等式的使用

  • 经常在推导时,可以使用Jenson不等式来实现求和计算和函数的交换,比如在VAE变分下界推导时就是用到了Jenson不等式