Logistic regression
目的: 回归???NO !!!经典的二分类算法!!!
优点:原理简单,容易实现,应用广泛
机器学习算法的选择:先逻辑回归,再用复杂的。
决策边界:可以是非线性的。
Sigmoid函数
自变量取值为任意实数,值域[0,1]
将任意的输入映射到[0,1]区间,再在线性回归中可以得到一个预测值,再将该值映射到Sigmoid中这样就完成了由值到概率的转换,也就是分类任务。
预测函数:
其中:
分类任务:
上面两个式子不利于化简。
整合:
y:目标值分类只有两个,不是0,就是1。
对于二分类任务(0,1),整合后取0只保留 取1只保留
似然函数:
对数似然:
求最大似然(梯度上升)——>梯度下降,引入 -(1/m) ,(1/m)是为了综合考虑m隔样本。
此时应用梯度上升求最大值,引入
解释:什么样的方向(theta)最合适的问题?——对(θ)求偏导。
1. 接下来对J(θ)求偏导
2. 对每个theta求偏导。(θ1——thetan)
3. 最后 i:第几个样本 ,j:样本的第几个特征
梯度下降得到最优方向后:
参数更新:
更新的方向(1)乘以学习率(α或者叫步长)就等于更新的幅度。
θj更新的次数,可以自己写个循环。