ML——LR-逻辑回归

手动推导流程

假设有m样本: $X = (x_{1}, x_{2}, x_{3},\dots x_{m})$
- 样本点为: $((x_{1}, y_{1}), (x_{2}, y_{2}), (x_{3}, y_{3}), \dots (x_{m}, y_{m}))$
假设 $w, \theta, x_{i}$ 等所有向量都为列向量

确定分类决策函数

线性回归模型
$$f(x) = w^{T}x + b$$
令
$$
\begin{align}
\theta &= (w; b) \\
x_{i} &= (x_{i}; 1)
\end{align}
$$
有
$$f(x) = \theta^{T} x$$
逻辑回归决策函数在线性回归模型上加一个sigmoid函数
$$
\begin{align}
h_{\theta}(x) &= sigmoid(f(x)) \\
&= \frac{1}{1+e^{-f(x)}} \\
&= \frac{1}{1+e^{-\theta^{T} x}} \\
\end{align}
$$
即
$$
\begin{align}
p(y=1|x) &= h_{\theta}(x) = \frac{1}{1+e^{-\theta^{T} x}} = \frac{e^{\theta^{T} x}}{1+e^{\theta^{T} x}}\\
p(y=0|x) &= 1-h_{\theta}(x) = \frac{e^{-\theta^{T} x}}{1+e^{-\theta^{T} x}} = \frac{1}{1+e^{\theta^{T} x}} \\
\end{align}
$$
对数几率(log odds，也称为logit) 定义为: $ln \frac{p}{1-p}$，在LR中有:
$$
\begin{align}
ln\frac{h_{\theta}(x)}{1-h_{\theta}(x)} = \theta^T x
\end{align}
$$
分类超平面不确定，与最终的阈值有关， $\alpha$ 的值与最终阈值相关
$$w^{\star}x + b^{\star} = \alpha$$
- 分类超平面由 $(w, b)$ 和阈值唯一确定，(注意: SVM的分类超平面由 $(w, b)$ 唯一确定)
- 这一点和SVM不同，SVM的分类超平面是确定的，详情参看ML——SVM-支持向量机

确定优化目标

LR中使用极大似然法
$$
\begin{align}
L(\theta) &= p(Y|X;\theta) \\
&= \prod_{i=1}^{m}p(y_{i}|x_{i}; \theta) \\
&= \prod_{i=1}^{m}(p(y_{i} = 1|x_{i};\theta))^{y_{i}}(p(y_{i} = 0|x_{i};\theta))^{1-y_{i}}
\end{align}
$$
上面的式子不易求导优化，我们使用与上面的式子单调性和最优点等价的对数似然函数为
$$
\begin{align}
LL(\theta) &= \log L(\theta) \\
&= \log \prod_{i=1}^{m}(p(y_{i} = 1|x_{i};\theta))^{y_{i}}(p(y_{i} = 0|x_{i};\theta))^{1-y_{i}} \\
&= \sum_{i=1}^{m}\left (y_{i}\log(p(y_{i} = 1|x_{i};\theta)) + (1-y_{i})\log(p(y_{i} = 0|x_{i};\theta)) \right ) \\
&= \sum_{i=1}^{m}\left (y_{i}\log\frac{p(y_{i} = 1|x_{i};\theta)}{p(y_{i} = 0|x_{i};\theta)} +\log(p(y_{i} = 0|x_{i};\theta))\right ) \\
\end{align}
$$
- 上面的式子中：
  $$\sum_{i=1}^{m}\left (y_{i}\log(p(y_{i} = 1|x_{i};\theta)) + (1-y_{i})\log(p(y_{i} = 0|x_{i};\theta)) \right )$$
- 加个负号即为为交叉熵损失函数
  $$-\sum_{i=1}^{m}\left (y_{i}\log(p(y_{i} = 1|x_{i};\theta)) + (1-y_{i})\log(p(y_{i} = 0|x_{i};\theta)) \right )$$
- 所以交叉熵损失函数与逻辑回归的对数似然损失函数（=逻辑回归对数似然函数的负数）是等价的
由前面的推导有
$$
\begin{align}
\log \frac{p(y_{i} = 1|x_{i};\theta)}{p(y_{i} = 0|x_{i};\theta)} = \log\frac{\frac{e^{\theta^{T} x}}{1+e^{\theta^{T} x}}}{\frac{1}{1+e^{\theta^{T} x}}} = \log e^{\theta^{T} x} = \theta^{T}x\\
\end{align}
$$
- 且：
  $$\log(p(y_{i} = 0|x_{i};\theta)) =\log(\frac{1}{1+e^{\theta^{T} x}}) = -\log(1+e^{\theta^{T} x})$$
故而有
$$
\begin{align}
LL(\theta) &= \sum_{i=1}^{m}\left (y_{i}\log\frac{p(y_{i} = 1|x_{i};\theta)}{p(y_{i} = 0|x_{i};\theta)} +\log(p(y_{i} = 0|x_{i};\theta))\right )\\
&= \sum_{i=1}^{m}\left ( y_{i}\theta^{T}x - \log(1+e^{\theta^{T}x}) \right)
\end{align}
$$

损失函数

最大化似然函数等价于最小化似然函数的负数
LR中使用极大似然法 ，所以对应的损失函数自然为对数似然损失函数
$$loss(\theta) = -LL(\theta) = \sum_{i=1}^{m}\left (- y_{i}\theta^{T}x +\log(1+e^{\theta^{T}x}) \right)$$

梯度下降法优化

注意: 这里优化目标也可以用牛顿法

目标，求一个 $\theta^{\star}$ 满足似然函数最大化或者损失函数最小化
$$\theta^{\star} = \mathop{\arg\max}_{\theta} LL(\theta) = \mathop{\arg\min}_{\theta} -LL(\theta) = \mathop{\arg\min}_{\theta} loss(\theta)$$
对数似然函数对参数 $\theta$ 求导有
$$
\begin{align}
\frac{\partial loss(\theta)}{\partial\theta} &= \sum_{i=1}^{m}\left ( -y_{i}x_{i} + \frac{x_{i}e^{\theta^{T}x}}{1+e^{\theta^{T}}x}\right ) \\
&= \sum_{i=1}^{m}x_{i}\left ( -y_{i} + \frac{e^{\theta^{T}x}}{1+e^{\theta^{T}}x}\right ) \\
&= \sum_{i=1}^{m}x_{i}\left ( -y_{i} + h_{\theta}(x_{i})\right ) \\
\end{align}
$$
LR模型的梯度下降参数迭代公式
$$
\begin{align}
\theta^{t+1} &= \theta^{t} - \alpha\sum_{i=1}^{m}x_{i}\left ( -y_{i} + h_{\theta^{t}}(x_{i})\right ) \\
&= \theta^{t} + \alpha\sum_{i=1}^{m}x_{i}\left ( y_{i} - h_{\theta^{t}}(x_{i})\right )
\end{align}
$$
- 其中 $\alpha$ 为步长
线性回归和LR模型的梯度下降法参数迭代公式表达式看似相同，但是不同的模型对应的 $h_{\theta}$ 函数并不相同

其他总结

参考:https://www.cnblogs.com/ModifyRong/p/7739955.html

LR中使用极大似然法 ，所以对应的损失函数自然为对数似然损失函数(对数损失函数)
- 对数似然损失函数定义为:
  $$Loss(\theta) = -P(Y|X; \theta)$$
- 《统计学习方法》P213 中定义 LR 的损失函数为逻辑斯蒂损失函数，在LR模型和最大熵模型中，逻辑斯蒂损失函数本质上与对数似然损失函数等价，可推导得到
一句话概括逻辑回归:
- 逻辑回归是假设数据服从伯努利分布，通过极大似然函数的方法，运用梯度下降法或者牛顿法来求解参数，来达到将数据二分类的目的
- 逻辑回归的假设: 数据服从伯努利分布 ， $p(y=1|x) = 1-p(y=0|x)$
- 逻辑回归的损失函数: 对数似然损失函数(交叉熵损失函数) ，也就是对数似然函数的负数
- 逻辑回归的求解方法: 梯度下降法或牛顿法
- 逻辑回归的目的: 将数据二分类
- 逻辑回归如何分类: 预测结果是连续的[0-1]的数 ，我们一般选择0.5作为阈值来分类，但是这个值可能是可以变化的，因为损失函数最小并不意味着0.5时分类精度最高
为什么要用极大似然法？等价于为什么要用对数似然损失函数作为损失函数？
- 损失函数一般有平方损失函数，对数损失函数，合页损失函数，绝对值损失函数等，极大似然函数取对数后等同于对数损失函数，在逻辑回归这个模型中，推导可以得到，对数损失函数训练求解参数的迭代函数只与 $x_{i}, y_{i}$ 相关，与sigmoid函数的梯度等无关.这样的参数更新自始至终都比较稳定
- 为什么不选平方损失函数的呢？其一是因为如果你使用平方损失函数，你会发现梯度更新的速度和sigmod函数本身的梯度是很相关的，sigmod函数在它在定义域内的梯度都不大于0.25，这样训练会非常的慢
逻辑回归中，如果某些特征高度相关，甚至某些特征完全相同，会造成什么影响？
- 损失函数收敛后，没有影响，因为特征的相关性并不影响分类器效果，重复特征会分化特征的权重(10个重复特征和单个特征训练结果差别在于前者每个特征的权重是后者的十分之一)，本质上最终结果不变的
- 但是训练时由于特征重复，参数增多，模型复杂度增加，训练时长，内存等都会增加
为什么需要去掉高度相关的特征？
- 去掉高度相关的特征使得模型可解释性更好
- 提高训练时间，节约内存，减少参数数量
- 特征的提取本身也需要时间，实际工程项目中可以少提取一个特征往往能节约很多时间
logistic 与 logit 的区别？
- logit: 又名 log adds ，指的是”对数几率”，定义为 $ln\frac{p}{1-p}$
- logistic: 又叫Sigmoid函数，指的是”对数几率函数”，本质上是一种”Sigmoid”函数，定义为 $f(x) = \frac{1}{1+e^{-x}}$
简单介绍LR模型的优缺点:
- 优点:
  - 模型简单，可解释性好，(如果对数据特征进行了归一化处理的话)可以从特征的权重看到不同特征对最终结果的影响
  - 模型效果往往不错(特征工程做得好的话)
  - 训练速度快，成熟的SGD优化方法(SGD可以分布式)等
  - 内存占用小
  - 输出结果可以作为概率值，然后可以对阈值根据实际进行划分，不一定是确定的0.5，只是一般选择0.5而已
- 缺点:
  - 难以处理非线性数据，本质上是线性分类面
  - 难以处理数据不平衡问题 ，这里如果正例远远多于负例，那么全都预测为正例，整体损失函数也不会太大
  - LR 本身无法筛选特征 ，有时候会用GBDT和XGBoost来筛选特征，然后再用LR模型
扩展:逻辑回归可像SVM一样引入核函数处理非线性分类问题吗？
- 一般来说不可以
- [存疑]理论上通过对原始样本非线性映射，似乎也可以，如果将 $f(x) = \theta^{T}x$ 中的 $f(x)$ 看做 $\theta$ 看做变量，然后类比SVM的核函数，定义一个关于 $x_{i}$ 的非线性映射
  - 这里 $x_{i}$ 表示第 $i$ 个样本，用 $x_{i}^{j}$ 表示第 $i$ 个样本的第 $j$ 个维度
    $$x_{i}^{j} = \phi_{j}(x_{i}^{j})$$
  - 基于上述非线性映射函数的定义，我们对每个样本都进行线性映射，每个维度用不同的映射函数(不同样本相同维度映射函数相同)
  - 这里的非线性映射与SVM的核函数不同，SVM不使用核函数的话，也可以通过相同的非线性映射的方式实现非线性分类
  - 使用核技巧后的LR模型将变得很慢，SVM与kernels是相配的，而LR与kernels会十分慢(来源SVM核技巧)
LR 模型训练完成后，输出概率多少的样本应该评估为正样本？【以下分析为个人理解，暂无严格证明】
- LR模型的损失函数本质上是交叉熵损失函数，交叉熵损失函数本质是最小化预估分布与训练样本分布之间的差距，故而预估均值与真实训练样本均值应该相等，即LR模型的预估值均值理论上与训练样本标签均值相同（这里LR的预估值是Sigmoid的输出值，训练样本负样本标签为0，正样本标签为1）。【PS，一种辅助理解思考：假设训练集中的样本特征完全相同，但其中30%是正样本，另外70%为负样本，那么优秀的LR模型在预估该训练样本时应该输出约为0.3】
- 进一步来说，当预估的平均值大于训练样本的均值时，即可判断为正样本
  - 举例，假设训练样本的均值为0.4，那么预估值大于0.4的样本均可视为正样本（思考：这种判定下模型的准确率 $ \text{Accuracy} = \frac{TP+TN}{TP+TN+FP+FN}$ 应该是最高的？）

附录：多分类任务重的 logits

TLDR：多分类任务中模型输出的 logits 和 LR 中的 logit 含义不完全相同
- 二者是同源但适用场景和维度不同的概念
LR 的 logit 是二分类专属的标量对数几率；
多分类模型的 logits 是多分类任务的向量原始得分 ，是 logit 概念在多类别场景下的推广，需通过 Softmax 转换为概率分布

同源：基于对数几率的定义

二者的本质都源于对数几率（log-odds） ，即事件发生概率与不发生概率的比值的自然对数，公式为：
$$\text{logit}(p) = \ln\left(\frac{p}{1-p}\right)$$
- 这个公式是连接线性得分和概率的桥梁

二分类场景下的等价性

当多分类任务退化为二分类时，模型的 logits 向量为 $[\text{logit}_0, \text{logit}_1]$
- 若满足 $\text{logit}_0 = -\text{logit}_1$
- 则 $2\text{logit}_1$ 就完全等价于 LR 中的 logit（正例的对数几率）
此时 Softmax 激活等价于 Sigmoid 激活：
$$ p(y=1) = \frac{e^{\text{logit}_1}}{e^{\text{logit}_0}+e^{\text{logit}_1}} = \frac{e^{\text{logit}_1}}{e^{-\text{logit}_1}+e^{\text{logit}_1}} = \frac{1}{1+e^{-2\text{logit}_1}} = \frac{1}{1+e^{-\theta^T x}} = \frac{1}{1+e^{-\text{logit}}}$$
- 若令 $\text{logit} = 2\text{logit}_1$，则与 LR 的 Sigmoid 输出完全一致

多分类 LR 的 logits

多分类逻辑回归（Softmax 回归）的输出 logits 就是上述多分类模型的 logits 向量，每个元素对应一个类别的线性得分，这是 logit 概念从标量到向量的扩展