西瓜书概览第二章

最新推荐文章于 2024-07-26 17:36:26 发布

weixin_55064870

最新推荐文章于 2024-07-26 17:36:26 发布

阅读量325

点赞数 7

文章标签： python 机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_55064870/article/details/134940218

版权

2.1 经验误差与过拟合

错误率：错误样本占总样本的比例

精度 = 1-错误率

误差、“训练误差”/“经验误差”（训练集）、“泛华误差”（新样本）

“过拟合”：把训练样本自身的一些特点当做了所有潜在样本都具有的一般性质，泛化能力很低。过拟合是机器面临的关键障碍。

“欠拟合”：训练样本的一般性质尚未学好。

2.2 评估方法

测试集和训练集尽可能保持互斥。

对已有数据集进行处理，方便从中得到一个模型。

处理方法：

①留出法：直接划分为两个互斥的集合。注意保持数据分布的一致性。若干次随机划分，重复进行试验评估后取平均值。通常将2/3-4/5的数据用于训练。

②交叉验证法（k折交叉验证）：将数据集分层划分为k组，k-1组作为训练集，剩下一组作为测试集。然后重复k次，将结果取平均。k通常取10。特例：留一法。令k=1。开销很大。

③自助法：随机从m个样本的数据集中采一个数据，重复m次，得到一个新的数据集，把这个当做训练集，然后没选到的数据当做测试集。这会引入估计偏差。

④

⑤⑥⑦⑧⑨⑩

2.3 性能度量

模型的好坏是相对的，不仅取决于算法和数据，还决定于任务需求。

均方误差： $\frac{1}{m}\sum_{m}^{i=1}\left ( f\left ( xi \right ) - yi\right )$ 的平方。

错误率和精度

查准率P：就是预测的正例里面有多少是真的正例。

查全率R：就是所有的真正的正例里面有多少是成功预测出来的。

通常二者相互矛盾，一高一低。

P-R曲线：完全包裹的曲线更优秀，另外对于有重叠的两个曲线，可以比较平衡点的位置。

F1度量：基于查准率与查全率的调和平均。具体公式见课本。另外还有Fβ度量，能让我们表达出对查准率与查全率的不同偏好。β大于1说明查全率有更大的影响，小于1说明查准率有更大的影响。

weixin_55064870

关注

7
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
西瓜书概览第二章

β大于1说明查全率有更大的影响，小于1说明查准率有更大的影响。②交叉验证法（k折交叉验证）：将数据集分层划分为k组，k-1组作为训练集，剩下一组作为测试集。③自助法：随机从m个样本的数据集中采一个数据，重复m次，得到一个新的数据集，把这个当做训练集，然后没选到的数据当做测试集。“过拟合”：把训练样本自身的一些特点当做了所有潜在样本都具有的一般性质，泛化能力很低。P-R曲线：完全包裹的曲线更优秀，另外对于有重叠的两个曲线，可以比较平衡点的位置。模型的好坏是相对的，不仅取决于算法和数据，还决定于任务需求。
复制链接

扫一扫

weixin_55064870 CSDN认证博客专家 CSDN认证企业博客

码龄3年

东北林业大学

7: 原创

153万+: 周排名

22万+: 总排名

2341: 访问

: 等级

126: 积分

36: 粉丝

52: 获赞

4: 评论

46: 收藏

私信

关注

热门文章

最新评论

详读西瓜书第六章支持向量机
CSDN-Ada助手: 不知道算法技能树是否可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
西瓜书详读-第五章神经网络
CSDN-Ada助手: 恭喜作者发布了西瓜书详读系列的第五章，对神经网络进行了详细的解读。非常感谢作者的辛勤付出和分享，让我们能够从中受益。在下一步的创作中，建议作者可以结合实际案例或者应用场景，进一步深入探讨神经网络的应用和优化方法，让读者能够更好地将理论知识转化为实际技能。希望作者能够继续保持创作的热情，为大家带来更多有价值的内容。
西瓜书第四章决策树-详读-第一部分
CSDN-Ada助手: 恭喜作者发布了新的博客，对西瓜书第四章决策树进行了详细阅读和解读，这对于学习决策树算法的读者来说肯定是非常有帮助的。希望作者能够继续坚持创作，同时建议可以在下一篇博客中加入一些实际案例或者应用场景的分析，让读者更好地理解决策树算法的实际应用。期待作者更多精彩的分享！
西瓜书第三章线性模型阅读笔记
CSDN-Ada助手: 恭喜你写了第四篇博客！阅读你的西瓜书第三章线性模型的笔记让我收获颇丰。不过我觉得下一步可以尝试结合实际案例，深入探讨线性模型的应用和局限性，或者对比不同的线性模型算法，这样能让读者更加深入地理解和学习。希望你能继续坚持创作，期待你更多精彩的文章！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
第一章绪论学习笔记
CSDN-Ada助手: 很高兴看到你写了第二篇博客！你对学习笔记的概念进行了很好的总结和介绍。继续创作下去，你一定会越来越进步的。除了你在标题和摘要中提到的知识和技能，还有一些与机器学习相关的扩展知识和技能。例如，特征选择和降维技术可以帮助提高模型的性能和效率，交叉验证可以用于评估模型的泛化能力，集成学习可以通过结合多个模型来提高预测的准确性等等。这些都是非常有用的工具和方法，希望对你的学习有所帮助。继续保持努力，期待看到更多精彩的博文！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。