大纲
Logistic Regression
例子
- 一般的二分类问题,比如说是否患有心脏病
- 软性二分类问题,这个值接近1,表示患病的可能性越大,越接近0,表示患病的可能性越小。
Soft Binary Classification
对于软性二分类问题,理想的数据是分布在[0,1]之间的具体值,但是实际中的数据只可能是0或者1,我们可以把实际中的数据看成是理想数据加上了噪声的影响。
Logistic Hypothesis
我们可以通过logistic function,把实数值映射到(0,1)区间
Logistic Regression Error
LikeHood
首先我们假定,我们的目标函数是 f(x)=p(+1/x)
然后我们计算
f
生成数据
然后我们从假设空间中取出一个
h
,计算
如果我们最大化
那么就有
Gradient of Logistic Regression Error
有了损失函数,我们就可以最小化损失函数。
Minimizing Ein(w)
因为我们可以知道 Ein(w) 是一个连续可导的凸函数,在梯度为0的地方可以取得最小值
The Gradient of Ein(w)
如上图所示,我们可以把梯度看成 θ(⋅) 作为权重的, (−ynxn)的线性组合 ,我们可以分为两种来考虑
- 一种是所有的 θ(⋅)=0 ,只有当 ynWTxn 远远大于0的时候才可以满足,也就是说数据是线性可分的
- 但数据往往是线性不可分的,所以我们考虑加权和为0,可以通过解这个非线性的等式,没有闭式解
Gradient Descent
Iteration Solution
上文说道解非线性方程,没有闭式解,我们可以采取一种迭代的方式来逐步优化
逐步优化分为两部分
- direction v ,优化的方向,假定是单位长度
- step size
η ,优化的步长,假定是正数
每步确定好这两个量,就可以进行优化
Linear Approximation
如果这解这个最小化问题,还是个非线性优化,而且还带有约束,难度没有减小
我们可以通过泰勒公式展开,进行线性近似。假定 η 很小
对于一个正数 η ,当下降的方向 v 和梯度的方向相反时,减少的最多
我们可以把更新公式写为
chioce of η
由上图可知, η 最好和 ∥▿Ein(W)∥ 成比例
那么我们令 η=η∥▿Ein(W)∥
那么我们的公式可以更新为