机器学习----第三章线性模型 学习笔记

引入

线性模型:给定由d个属性描述的示例,线性模型试图学得一个通过属性的线性组合来进行预测的函数。f(x) = wTx+b

线性回归试图学得一个线性模型以尽可能准确的预测实值输出标记,公式:f(xi) = wxi + b,使得f(xi) ≈ yi

方法

  • 我们的任务就是求出w和b,可用均方误差最小化的方法,基于均方误差最小化来进行模型求解的方法称为最小二乘法,在线性回归中,最小二乘法就是试图找到一条直线,使得所有样本到达直线的欧氏距离最小。

除了利用线性模型进行回归学习,也可以利用线性模型处理分类任务,我们只需要找一个单调可微函数将分类任务的真实标记y与回归模型的预测值联系起来。
对数几率函数是一个能在一定程度上近似单位阶跃函数的常用替代函数,它将z的值转化为一个接近0或1的y值,并且其输出值在z=0附近变化很陡。(类似于逻辑回归?)

线性判别分析LAD

  • 线性判别分析LDA的思想:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。

多分类学习

多分类学习的基本思路是拆解法:将多分类任务拆解为若干个二分类任务求解。拆分策略有:一对一OvO、一对其余OvR、多对多MvM。
多对多MvM是每次将若干个类作为正类,若干个类作为反类,其中一对一OvO和一对其余OvR是多对多MvM的特例。

类别不平衡问题就是指分类任务中不同类型的训练样例数目差别很大的情况,可以理解为样本分布不均匀的情况。

欠采样:针对反类样例,去除一些反例使得正、反例数目相近;
过采样:针对正类样例,增加一些正例使得正、反例数目相近;
阈值移动:基于原始数据训练集学习,但在用训练好的分类器进行预测时,将一个式子嵌入其决策过程。

提问

1.什么是逻辑回归?
逻辑回归就是一种用于解决分类问题的模型,可以预测准确值和区间值,一般作用于二分类问题,我觉得书上写的对数几率回归应该就是逻辑回归了。

2.什么是负采样?
负采样好像就是相对于正采样来说,采集的样本避开原本最可能被采集到的,以便采集的公平性?

3.什么是多标签分类?
多标签分类就是对于一个数据集,里面的数据可能属于多种类别,比如一部电影可以同时属于犯罪片和悬疑片,一篇文章可以同时属于科技栏目和政治栏目等。与这个问题相结合的有标签的排序问题。

4.LDA和PCA之间有什么区别?
LDA线性判别分析与PCA主成分分析的区别有:LDA是有监督的,PCA是无监督的;LDA投影后的组内方差小而组间方差大,使得样本具有区分性,PCA投影后的数据方差尽可能的大,以获得更多的信息。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值