机器学习(3) -- 线性模型

3.1 基本形式

w直观表达了各属性在预测中的重要性,因此线性模型有很好的解释性

 

3.2 线性回归

对离散属性,若属性值之间存在“序”关系,可通过连续化将其转化为连续值,如高矮可转换为{1,0},高中低可转化为{1,0.5,0};

若属性之间不存在序关系,假设有K个属性值,则通常转化为k维向量,如西瓜、 南瓜、黄瓜可转化为(0,0,1),(0,1,0),(1,0,0)

均方误差应用了欧氏距离

基于均方误差最小化来进行模型求解的方法成为最小二乘法

多元线性回归,X.T*X往往不是满秩矩阵,此时可解出多个w,都能使均方误差最小化,常见的做法是引入正则化项

 

对数线性回归:ln(y) = w.T*x+b,实质上是在求输入空间到输出空间的非线性函数映射。

广义线性模型

g(·)称为联系函数

 

3.3 对数几率回归

上面是使用线性模型进行回归学习,但是若要做的是分类任务,只需找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来

对二分类任务,最理想的是单位跃阶函数。

等价于

y是样本x是正例的可能性,1-y是反例的可能性,于是y/(1-y) 称为“几率”,取对数得到“对数几率”

名为回归,实际上是一种分类方法,优点如下:

无须事先假设数据分布;

不仅能预测出类别,还能得到近似概率预测;

对率函数是任意阶可导函数,有很好的的数学性质。

 

极大似然法估计参数

 

3.4 线性判别分析LDA

亦称Fisher判别

LDA思想非常朴素:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。

 

3.5 多分类学习

有些二分类学习方法可直接推广到多分类,但更多情形下,是基于一些基本策略,利用二分类学习器来解决多分类问题。

多分类学习的基本思路是“拆解法”,即将多分类任务拆为若干个二分类任务求解。先对问题进行拆分,然后为拆出的每个二分类任务训练一个分类器;测试时,对这些分类器的预测结果进行集成以获得最终的多分类结果

拆分策略:

一对一OvO: N个类别两两配对,产生N(N-1)/2个二分类任务

一对其余OvR:

多对多:MvM:每次将若干个类作为正类,若干个其他类作为反类,OvO,OvR是MvM的特例

OvO的存储开销和测试时间开销通常比OvR更大。类比很多时,OvO的训练时间开销通常比OvR更小。预测性能则取决于数据分布,在多数情况下两者差不多。

MvM正反类构造必须有特殊设计,不能随意选取。常用MvM技术:“纠错输出码”ECOC

 

3.6 类别不平衡问题

类别不平衡就是指在分类任务中不同类别的训练样例数目差别很大的情况

 

再缩放/再平衡:实际“训练集是真实样本总体的无偏采样”这个假设往往不成立

欠采样(下采样):去除一些反例使正反例数目相近,再进行学习

代表算法:EasyEnsemble:利用集成学习机制,将反例划分为若干个集合供不同学习器使用

过采样(上采样):增加一些正例使正反例数目相近,再进行学习

代表算法:SMOTE通过对训练集的正例进行插值来产生额外的正例

阈值移动:直接基于原始训练集进行学习,预测时将再缩放嵌入到决策过程

 

再缩放是代价敏感学习的基础

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值