机器学习 笔记1:逻辑回归

参考资料:周志华机器学习书籍 和 Datawhale开源资料天池链接
在这里插入图片描述
上图是西瓜书关于线性模型的目录,初学者掌握导图右侧的几项知识点即可。

  1. 线性模型的基本形式:
    在这里插入图片描述
    即学习一个线性组合,来进行对样本 (x) 的预测,f(x) 为预测值。w 和 b 是要学习的模型参数。
  2. 线性回归
    回归一般预测的是连续值,在这里,我们实际是进行分类任务。对于离散的样本属性,如果属性有序,可以将其转化为连续值,如(高,中,低)可转化为(1,0.5,0);如果属性无序,可以使用 k 维向量进行表示。
    模型参数的求解,其实就是使用均方误差最小化的方法(最小二乘参数估计)求解 w 和 b 。
    对于简单情形,即样本 x 只有一个属性值的情况:
    在这里插入图片描述
    等式左边表示 w 和 b 的解,我们需要对右边的求和部分进行最小化处理。将求和部分分别对 w 和 b 求导,导数为零的解即为所求。得到解:
    在这里插入图片描述
    在这里插入图片描述
    对于一般情形,即样本 x 有多个属性值的情况:
    在此只给出书中的结果,具体推导过程涉及线性代数,推导比较复杂,可以参考南瓜书。
    在这里插入图片描述
    (基本原理了解即可,在实际应用中,库里都已经封装好了。)
  3. 逻辑回归(书中称为 对数几率回归)
    直接给出函数形式:
    在这里插入图片描述

进而可以推导出:
在这里插入图片描述
y表示预测值,即样本预测为正例的可能性,1-y 表示样本为反例的可能性。两者比值表示预测为正例的相对可能性。这里实际上是用线性回归模型的预测结果去逼近真实标记的对数几率,因此其对应模型也被称为对数几率回归。
4. 多分类学习
线性模型,画一条直线只能将一个平面分为两类,要进行多分类任务的话,就需要我们对问题进行拆分,拆分为多个二分类任务,最终将这些二分类的分类器预测结果集成起来。
三种拆分策略:
1)一对一:每次将类别两两配对,一个作为正例,一个作为反例;
2)一对其余:每次将一个类作为正例,其余类整体作为反例;
3)多对多:每次将若干个类作为正例,若干个其他类作为反例。
在实际应用中,比如sklearn库。已经帮我们封装好这些方法,可以直接用来进行多分类,而不需要我们自己操作。
5. 线性判别分析(LDA)
了解基本思想:将样例投影到一条直线上,使同类样例在直线上的投影点尽可能接近,不同类样例的投影点尽可能远离。
6. 类别不平衡问题:
指分类任务中,不同类别的训练样例数差别很大的情况。在决策过程中添加的一个基本策略:“再缩放”。
在这里插入图片描述
m+ 和 m- 分别表示正反例数目。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值