统计学习方法一般看中的是模型 、策略与计算方法(梯度法、牛顿法)。
而Logistic回归模型是广义线性模型,策略是条件概率,计算方法是梯度法、牛顿法等。
1 LR模型
二项LR模型是如下的条件概率分布:
是参数与输入变量x的内积
如果你有疑惑P为什么是这个公司,这是因为:因为LR是基于伯努利分布,属于概率模型,可以引用最大熵模型的结论,而伯努利属于指数分布族,也是广义线性模型,所以可以将特征函数写成wx)
2 模型参数估计
在LR模型学习中,给定数据集{(x1,y1),(x2,y2),...,(xN,YN)},使用最大似然法估计模型参数,先求似然函数(似然就认为是概率,只不过概率是模型已知参数已知,但是似然是参数未知模型已知求变量的概率),似然函数也就是似然的函数,有N个样本,所有样本预测正确的概率:
为P(y=1|x)。
对似然函数去对数,原因有2个,把乘变成加便于计算和值变大
接下来用梯度上升法求解模型的最优参数(不是唯一的,还可以用别的)。梯度上升法数学角度讲是通过泰勒展开式保留一阶,通俗地理解,就是爬山,怎么寻找最短路径,因为看不到远方,只能说我向前走一步就走最陡的地方。
参数的个数由输入特征觉得,若xi的特征数为2(房价预测,特征是面积和在第几层),则加上偏置参数的个数是3个。
梯度上升法核心是求参数偏导和迭代,先对参数进行初始化,再通过迭代一步一步逼近极值,梯度上升法可表示为:
求出即可,是学习的步长,由自己定义。
这个求导比较容易,为:
xi表示第i个输入数据,xij表示第i个数据第j个特征值
3 指数分布族和广义线性模型
广义线性族:指数分布族、给定概率分布推导出线性模型
指数分布族满足概率分布为以下形式:
η 是分布的自然参数;
T(y) 是充分统计量,通常 T(y)=y;
a(η) 被称为 log partition function,作用是归一化;
LR回归是基于伯努利分布:
P(y=1;φ)=φ P(y=0;φ)=1-φ
所以LR是指数族,概率分布推导出线性模型wx