上图样本特征值x只有1个
例如线性回归中目的为求出样本中的拟合直线,hθ(x) = θ^T *x = θ^0 + θ^1*x,使其拟合函数可以用于预测。
对于线性回归中损失函数,
是不是简单明了,就是拟合函数和实际样本的欧几里得距离,平方项作用:1.方便求导;2.使其经验风险绝对化。然后求其梯度,找出代价函数下降最大方向,迭代足够多的次数,加以合适的步长(学习率)α,更新其θ
最后便可得到代价函数最优解θ0,θ1,即为经验风险最小化。便可得到拟合直线
而对于逻辑回归中
我们希望得到上图中决策边界,利用样本中特征值xn(样本中特征值个数)加以权重,得到预测函数h(θ)。
值得注意的是逻辑回归中输出值因变量y服从伯努利分布,即0或1,而不是线性回归中近似的连续值,所有伟大的数学家,利用sigmod函数,又称压缩函数,将特征值加权后的函数
使其值压缩到0到1的范围内,
预测函数 sigmod函数
其中z=θ^T x,
可得图形,
便可得与线性回归中不一样的预测函数:
hθ(x)≥0.5,θ^TX≥0,y=1,同理hθ(x)≤0.5,θ^T X≤0,y=0
构建代价函数,代价函数也是机器学习中建立模型的核心所在,当我们引入sigmod函数后,上述hθ(x)将变得不易求导,如果依然利用线性回归中代价函数,
我们将得到一个non-convex(非凸)函数
将这个函数进行梯度下降,我们很有可能只能得到一个局部最小值,很难收敛到全局最小值,这样所求的预测函数误差将会非常大,况且hθ(x)求几次导数将会变得非常复杂,不适合求解实际问题。
解决办法:引入对数,将hθ(x)对数化,并重新改写代价函数
可得函数图像:
根据上图可得出当预测值和实际值同为1或同为0时,误差为0,当预测为0,而实际值y=1时,误差将会是无穷大,即所谓的惩罚项。
最后可得逻辑回归中代价函数:
同理梯度下降和θ迭代更新就和线性回归中差不多了。
便可得决策边界
待续。。。。。。。