目录
预测的变量y为是一个离散值的情况下的分类问题,这时要运算logistic回归算法,它能让的输出值处于区间之间,该数值用来表示处于某一分类的概率为多大
假设,其中g(z)函数可以有很多,这里假设为sigmoid函数,即
决策边界
上面这条粉红的线就叫决策边界,它将整个平面分成了两个部分,一部分为类别1,另一部分为类别2,这决策边界是假设函数的属性,不是数据集的属性
损失函数
用于分类问题的的损失函数,即交叉熵损失函数,可以简化为,二者等效,h(x)为预测结果,y为真实结果,最后整理可得,即
梯度下降
除了用梯度下降的方法进行优化以外,还可以用一些其他的方法进行优化
过拟合
线性回归和逻辑回归在实际应用中,会出现过拟合问题,导致他们表现欠佳
过拟合问题将会在变量过多的时候出现,这时训练出的假设函数能很好地拟合训练集,损失值也十分接近0,但是它无法泛用到新的样本中,无法预测新样本
解决方案:
- 减少样本变量的数量(可以人工选择剔除或用模型选择算法剔除)
- 正则化:保留全部样本,减少量级或θ值的大小
正则化
如果我们的参数值较小,这意味着,所选取的假设模型更为简单,更不容易出现过拟合问题
我们可以对损失函数进行修改,改为,后面新加的一项即为正则项,或叫惩罚项
正则化线性回归
正则化逻辑回归