分类问题经典算法 | 二分类问题 | Logistic回归：梯度下降-编程知识

分类问题经典算法 | 二分类问题 | Logistic回归：梯度下降

一. 损失函数

Logistic回归算法公式推导篇中，我们通过对似然函数求对数，得到 $l(\theta )$ ：
$l(\theta )=ln\left [ L(\theta)\right ]=\sum_{i=1}^{M}\left \{y^{(i)}ln[h_{\theta}(x^{(i)} )]+(1-y^{(i)})ln[1-h_{\theta}(x^{(i)} )] \right \}$

公式解释1： $l(\theta )$

对于似然函数，其含义可以解释为：

用已知的观测数据（x值、y值），在某个事件发生概率最大时候，求函数的参数

究竟上述的这个事件发生概率有多大呢？当然是概率越接近1越好，越大越好

结合对似然函数的描述，当似然函数取最大时，模型最优，那么此时我们就可以定义损失函数：
$J(\theta)=-l(\theta)=\sum_{i=1}^{M}\left \{-y^{(i)}ln[h_{\theta}(x^{(i)} )]-(1-y^{(i)})ln[1-h_{\theta}(x^{(i)} )] \right \}$

公式解释2： $J(\theta )$

对于损失函数这样定义不太理解的同学，看这里！！！

明确我们预测的目的：

对于一个样本的预测，我们希望模型能预测真实标签的概率越接近1越好，预测的越准确越好

上述目的如果套用至似然函数中，我们就可以说：

对于观测数据（有1有0），我希望模型预测真实标签的概率越接近1越好

若我对似然函数取反，他的含义就变得非常符合我们对于损失函数的要求，即损失越小越好：

对于观测数据，此时我们的期望就变成了，预测真实标签的概率越接近0越好，预测的准确率越低越好；

而事件（预测的准确率越低越好）发生的概率，从预测目的来说，我们希望越低越好，即损失函数越小越好

其实，从数学层面讲，似然函数求最大值就等价于求公式前加负号的最小值

1. 交叉熵损失函数

上述定义的损失函数，是非常著名的交叉熵（CrossEntropy）损失函数 ，该函数为凸函数，表示为：
$Cost(h_{\theta}(x),y)=\left\{\begin{matrix}-ln(h_{\theta}(x))，y=1 \\-ln(1-h_{\theta}(x))，y=0\end{matrix}\right.$
在这里插入图片描述