机器学习 分类问题

一.概述
1.概念:

"分类"(Classification)是指根据已有样本,通过1/多个特征判断新样本属于哪个已知的样本类.也就是说,给定训练集{(x1,y1)...(xn,yn)},据此得
到1个分类函数.该分类函数用于将新样本xi与某个已知的样本类yi关联起来.另外,样本空间中用于区分属于不同类别的样本点所在的子集的超曲面称为
"决策边界"(Decision Boundary).分类问题属于有监督学习
只涉及2个类别的分类问题称为"二分类问题"(Binary Classification),并称其中1个类为"正类"(Positive Class),1个类为"反类"(Negative
Class);涉及更多类别的分类问题则称为"多分类问题"(Multi-Class Classification)

2.实现过程:

①学习步:通过归纳分析训练集来建立分类模型得到分类规则
②分类步:使用已知的测试样本集评估分类规则的准确率,如果准确率是可以接受的,就使用该模型对待测样本集进行分类

3.相关算法:

"贝叶斯定理"(Bayes' Theorem)/"贝叶斯网络"(Bayesian Network)
"决策树"(Decision Tree)
"K-最近邻算法"(K-Nearest Neighbours)
"人工神经网络"(Artificial Neural Networks)
"支持向量机"(Support Vector Machines)
"逻辑回归"(Logistic Regression)

4.应用:

Churn Prediction
Medical Diagnosis

二.相关概念
1.混淆矩阵:

参见 机器学习.模型评估与选择..2.(3) 部分

2.ROC曲线:

参见 机器学习.模型评估与选择..2.(4) 部分

3.代价敏感的学习:

"代价敏感学习"(Cost Sensitive Learning;CSL)是指根据不同错误的代价的大小,对不同的错误赋予不同的权重的学习

4.提升分析:

"提升分析"(Lift Analysis)是指将所有样本按某个指标分类并排序,再对在该指标上超过一定值的样本进行进一步分析.该方法常用于市场营销以
降低成本

在这里插入图片描述
三.多分类问题
1.基本思路:

有些二分类学习方法可直接推广到多分类问题上;但更多情况下是基于一些基本策略,利用二分类学习器来解决多分类问题.基本思路是"拆解法":将多分类
任务拆为若干个二分类任务求解.具体来说,先对问题进行拆分,然后为拆出的每个二分类任务训练1个分类器;在测试时,对这些分类器的预测结果进行集成
以获得最终的多分类结果.问题的关键是如何对多分类任务进行拆分,以及如何对多个分类器进行集成

2.拆分策略

给定数据集D={(x1,y1),(x2,y2)...(xm,ym)},yi∈{C1,C2...CN}

(1)一对一:

"一对一"(One vs. One;OvO)策略将这N个类别两两配对,从而产生了N*(N-1)/2个二分类任务.在测试阶段,新样本将同时提交给所有分类器,于是我们
将得到N*(N-1)/2个分类结果.最终结果可通过投票产生:把被预测得最多的类别作为最终分类结果

在这里插入图片描述
(2)一对多:

"一对其余"(One vs. Rest;OvR)/"一对全体"(One vs. All;OvA)策略每次将1个类的样本作为正例,所有其他类的样本作为反例来训练得到N个分类
器.在测试时,若仅有1个分类器预测为正类,则以该分类器的正例类别作为结果;若有多个分类器预测为正类,则考虑各分类器的置信度,选择置信度最大的
类别作为结果

(3)多对多:

"多对多"(Many vs. Many;MvM)策略每次将若干个类作为正类,若干个其他类作为反类,是OvO/OvR的一般形式.其正/反类构造需经过设计,不能随意选
取,如通过"纠错输出码"(Error Correcting Output Codes;ECOC)构造

(4)策略的比较:

训练用时:OvO < OvR
预测用时:OvO > OvR
存储开销:OvO > OvR
预测性能:OvO ≈ OvR
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值