统计机器学习【1】- 入门机器学习(二)

声明:该文章为作者整理和简略的,非原创,是多方资料的整合,为方便所以标注的原创,有错别字欢迎指正

常见的机器学习的三大分类:
分类问题、 标注问题、回归问题

一、分类问题

在监督学习中,当输出变量有有限个离散变量值时,预测问题就成了分类问题。输入变量XX 可以是离散的,也可以是连续的,,监督学习从数据中学习一个分类模型或分类决定函数,称为分类器(classifier)
在这里插入图片描述
评价分类性能指标一般是分类准确率(accuracy),定义为:对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。

对于二分类问题常用的评价指标是精确率与召回率。通常以关注的类为正类,其他类为负类,分类器在测试集上的预测或正确或不正确。4种情况出现的总数分别记作:
TPTP——将正类预测为正类数;

FNFN——将正类预测为负类数;

FPFP——将负类预测为正类数;

TNTN——将负类预测为负类数;

精确率定义为
P=TPTP+FPP = \frac{TP}{TP + FP}
召回率定义为
R=TPTP+FNR = \frac{TP}{TP + FN}

此外,还有F1F_1值,是精确率和召回率的调和均值,即

2F1=1P+1R\frac{2}{F_1} = \frac{1}{P} + \frac{1}{R}
F1=2TP2TP+FP+FNF_1 = \frac{2TP}{2TP + FP + FN}

精确率和召回率都高时,F1F_1值也会高。

二、标注问题

标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。标注问题的目的在于学习一个模型,使它能够对观测序列给出标记作为预测。
在这里插入图片描述

三、回归问题

在这里插入图片描述
分类:
(1)输入变量个数:

  • 一元回归
  • 多元回归
    (2)模型类型:
  • 线性回归
  • 非线性回归

最常用的损失函数:平方损失函数

参考文献:
【1】统计学习方法-李航

展开阅读全文
©️2019 CSDN 皮肤主题: 游动-白 设计师: 上身试试
应支付0元
点击重新获取
扫码支付

支付成功即可阅读