参考:李航《统计学习方法》
一、分类(classification)
输入变量X的值可以是连续的,也可以是离散的,输出变量
Y的值是
离散的,这时对Y进行
预测变成了
分类问题。可能的输出Y值称为
类(class)。当分类的
Y值为
多个时,称为
多分类问题。
分类器(classifier):
监督学习从数据中学习到的函数
如何评价分类器的性能?某个分类器好,还是不好?
1)通用的评价指标
分类准确率(accuracy):
给定数据集,分类器能正确分类的样本数占总样本数的比例。
2)二分类问题中的评价指标
二分类中,关注的类为正类,其他为负类。
TP
=将正类预测为正类的数目。
FP
=将负类预测为正类的数目。
TP+FP
=将样本预测为正类的数目。
FN
=将正类预测为负类的数目。
TN
=将负类预测为负类的数目。
FN+TN=
将样本预测为负类的数目。
精确率(precision)
=P=TP/(TP+FP)=正类中预测正确的数目/所有预测为正类的数目
召回率(recall)
=R=TP/(TP+FN)=正类中预测正确的数目/正类的数目
F1
=精确率和召回率的调和均值
分类的应用场景
1.在银行业务中, 可以构建一个客户分类模型, 对客户按照贷款风险的大小进行分类
2.在网络安全领域,可以利用日志数据的分类对非法入侵进行检测
3.在图像处理中 , 分类可以用来检测图像中是否有人脸出现
4.在手写识别中, 分类可以用于识别手写的数字
5.在互联网搜索中, 网页的分类可以帮助网页的抓取、索引与排序
二、标注(tagging)
输入一个变量X的序列,对应输出一个变量Y的序列。
如何评价标注器的性能?某个标注器好,还是不好?
1)通用的评价指标
标注准确率(accuracy):给定数据集,标注器能正确标注的样本数占总样本数的比例。
该类的统计学习方法
1)隐马尔科夫模型
2)条件随机场
分类的应用场景
1.信息抽取
2.自然语言处理
三、回归(regression)
输入变量X,对应输出一个变量Y,Y是连续的,非离散的。目标是找到X与Y之间的映射函数。
若X只有一个,则是
一元回归。若X有多个,则是
多元回归。
X与Y的关系可能是
线性的,也可能是
非线性的。
如何评价回归函数的性能?某个回归函数是好,还是不好?
用最小二乘法(least squares)去计算出预测值和真实值之间的差异,以此来衡量函数的性能。
分类的应用场景
1.
市场趋势预测
2.
产品质量管理
3.
客户满意度调查
4.投资风险分析