4-分类+回归+标注-监督学习-机器学习

参考:李航《统计学习方法》


一、分类(classification)

    输入变量X的值可以是连续的,也可以是离散的,输出变量 Y的值离散的,这时对Y进行 预测变成了 分类问题。可能的输出Y值称为 类(class)。当分类的 Y值多个时,称为 多分类问题
分类器(classifier)监督学习从数据中学习到的函数

如何评价分类器的性能?某个分类器好,还是不好?

1)通用的评价指标

分类准确率(accuracy): 给定数据集,分类器能正确分类的样本数占总样本数的比例。

2)二分类问题中的评价指标

二分类中,关注的类为正类,其他为负类。
TP =将正类预测为正类的数目。
FP =将负类预测为正类的数目。
TP+FP =将样本预测为正类的数目。
FN =将正类预测为负类的数目。
TN =将负类预测为负类的数目。
FN+TN= 将样本预测为负类的数目。
精确率(precision) =P=TP/(TP+FP)=正类中预测正确的数目/所有预测为正类的数目
召回率(recall) =R=TP/(TP+FN)=正类中预测正确的数目/正类的数目
F1 =精确率和召回率的调和均值

分类的应用场景

1.在银行业务中, 可以构建一个客户分类模型, 对客户按照贷款风险的大小进行分类
2.在网络安全领域,可以利用日志数据的分类对非法入侵进行检测
3.在图像处理中 , 分类可以用来检测图像中是否有人脸出现
4.在手写识别中, 分类可以用于识别手写的数字
5.在互联网搜索中, 网页的分类可以帮助网页的抓取、索引与排序

二、标注(tagging)

    输入一个变量X的序列,对应输出一个变量Y的序列。

如何评价标注器的性能?某个标注器好,还是不好?

1)通用的评价指标

标注准确率(accuracy):给定数据集,标注器能正确标注的样本数占总样本数的比例。

该类的统计学习方法

1)隐马尔科夫模型
2)条件随机场

分类的应用场景

1.信息抽取
2.自然语言处理

三、回归(regression)

    输入变量X,对应输出一个变量Y,Y是连续的,非离散的。目标是找到X与Y之间的映射函数。
若X只有一个,则是 一元回归。若X有多个,则是 多元回归
X与Y的关系可能是 线性的,也可能是 非线性的。

如何评价回归函数的性能?某个回归函数是好,还是不好?

最小二乘法(least squares)去计算出预测值和真实值之间的差异,以此来衡量函数的性能。

分类的应用场景

1. 市场趋势预测
2. 产品质量管理
3. 客户满意度调查
4.投资风险分析


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值