机器学习笔记（一）：绪论、模型评估与选择

最新推荐文章于 2022-02-23 21:33:44 发布

忌颓废

最新推荐文章于 2022-02-23 21:33:44 发布

阅读量365

点赞数 1

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44947339/article/details/104760524

版权

目录

什么是机器学习？

利用计算机从历史数据在找出规律，并把这些规律用到对未来不确定场景的决策。

机器学习的典型应用：
（1）关联规则：啤酒+纸尿片，购物篮分析
（2）聚类：用户细分精准营销
（3）朴素贝叶斯：垃圾邮件检测
（4）决策树：风险识别
（5）ctr预估：互联网广告：百度的前多少个词条（商业广告）（按照点击率排）

基本术语

在这里插入图片描述

学习（训练）：从数据中学得模型的过程
训练集：参与模型训练的样本集合
测试：学得模型后，使用其样本进行预测的过程
测试集：被预测的样本集合
假设：学得模型对应的关于数据的某种潜在规律
分类：输出结果是离散值
回归：输出结果是连续值
监督学习：训练样本有标记
无监督学习：训练样本无标记
泛化能力：学得模型适用于新样本的能力
独立同分布：样本空间的全体样本都服从一个未知的分布，且相互独立

归纳与演绎

归纳：
从特殊到一般的“泛化”：从样例（训练样本）中学习。
演绎：
从一般到特殊的“特化”：从数学公理推导出定理

归纳偏好

机器学习应该有偏好
归纳偏好原则一：奥卡姆剃刀（j简单优先）（比如光滑曲线A）

经验误差与过拟合

1、真实值与预测值

误差：模型输出与样本真实值之间的差异

错误率：分类错误样本数占总样本数比例
精度：1－错误率
训练误差：模型在训练集上的误差
泛化误差：模型在新样本上的误差
目标：得到泛化误差小的模型／学习器
实际：新样本未知

以经验误差代表泛化误差

模型从训练样本中学得适用于所有潜在样本的“普遍规律”

2、“过”与“不及”

过拟合：用力过猛
欠拟合：用力不足

评估方法

1、训练集与测试集

目标：对于模型／学习器的泛化误差进行评估
专家样本：训练集＋测试集
训练集：训练误差
测试集：测试误差

用测试误差近似表示泛化误差（要求独立同分布&互斥）

2、测试误差与泛化误差

测试误差

留出法

交叉验证

自助法

（1）留出法

训练集＋测试集：互斥互补
训练集训练模型，测试集测试模型
合理划分、保持比例
单次留出与多次留出
多次留出法：如对专家样本随机进行100次训练集／测试集划分，评估结果取平均

（2）交叉验证法

K折交叉验证：将专家样本等份划分为K个数据

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记（一）：绪论、模型评估与选择

阅读目录什么是机器学习？基本术语归纳与演绎归纳偏好经验误差与过拟合评估方法性能度量比较检验与偏差方差练习什么是机器学习？利用计算机从历史数据在找出规律，并把这些规律用到对未来不确定场景的决策。机器学习的典型应用：（1）关联规则：啤酒+纸尿片，购物篮分析（2）聚类：用户细分精准营销（3）朴素贝叶斯：垃圾邮件检测（4）决策树：风险识别（5）ctr预估：互联网广告：...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。