西瓜书-第三章线性模型

线性回归

适合处理数值问题。
f ( x i ) = w x i + b f(x_i)=wx_i+b f(xi)=wxi+b使得 f ( x i ) f(x_i) f(xi)约等于 y i y_i yi
离散属性的处理:若有序order,则连续化;否则需要通过编码,转化为k维向量
求解最优解:对 E ( a , b ) = ∑ i = 1 m ( y i − w x i − b ) 2 E_{(a,b)}=\sum_{i=1}^{m}(y_i-wx_i-b)^2 E(a,b)=i=1m(yiwxib)2进行最小二乘参数估计,分别对w和b求偏导,令等式为0,即可求出w和b。
解释为何一定是最优解?
因为在导数为0处,要么是局部极大要么局部极小,由于是求偏离的程度 E ( a , b ) E_{(a,b)} E(a,b),它的极大值只会是无穷大,因此在导数为0处,再也不会再小了,就是取得极小的点。
在这里插入图片描述

多元线性回归

在这里插入图片描述无法解出唯一值,引入正则化或者归纳偏好

广义线性模型

在这里插入图片描述

对率回归logistic regression

在这里插入图片描述
几率:正例的概率/负例的概率
在这里插入图片描述
对率回归:针对分类问题,

  • 无需实现假设数据分布——没有独立同分布假设
  • 可得到“类别”的近似概率预测
  • 可直接应用现有的数值优化算法库 求解最优问题
求解步骤

梯度为0是极值点的前提条件是原函数是凸函数,而 ( 1 e − ( w x + b ) − y ) 2 (\frac{1}{e^{-(wx+b)}}-y)^2 (e(wx+b)1y)2不是一个凸函数,所以不能直接求导,令等式为0.

正确方法是使用极大似然法。求
m a x P ( 真 正 例 ) P ( 预 测 正 ) + P ( 真 负 例 ) P ( 预 测 负 ) max P(真正例)P(预测正)+P(真负例)P(预测负) maxP()P()+P()P(),推导出来的式子是一个高阶可导连续函数,之后通过梯度下降/牛顿法求解梯度等于0的解。
在这里插入图片描述

类别不平衡——正负类占总类的比例不一样,不是无偏采样

y 1 − y > 1 \frac{y}{1-y}>1 1yy>1隐含信息就是 y > 1 / 2 y>1/2 y>1/2,也就是当类别平衡的时候在[0,1]区间大于1/2就判定为正例,小于1/2就判定为负例。
若采样不平衡,就要采用——再缩放,比如用 m + m − \frac{m^+}{m^-} mm+替换1/2,就是采用阈值移动的方法
类别不平衡问题中,当小类比大类重要时,需要做特殊处理。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值