机器学习系统的设计

最新推荐文章于 2022-12-02 08:36:30 发布

蜡笔小潘和野原小白

最新推荐文章于 2022-12-02 08:36:30 发布

阅读量177

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45242264/article/details/107547047

版权

机器学习系统的设计

一、垃圾邮件分类器
二、构建学习算法方法
三、类偏斜的误差度量
四、查全率和查准率之间的权衡
五、机器学习数据

一、垃圾邮件分类器

首先决定如何选择并表达特征向量x。
选择一个由100个最常出现在垃圾邮件中的词所构成的列表，根据这些词是否出现在邮件中，获得特征向量（出现为1，不出现为0，尺寸为100×1）。

为了构建这个分类器算法，可以采取以下操作：

1.收集更多数据，拥有更多的垃圾邮件和非垃圾邮件样本

2.基于邮件的路由信息开发一系列复杂的特征

3.基于邮件的正文信息开发一系列复杂的特征，包括考虑截词的处理

4.为探测刻意的拼写错误开发复杂的算法

二、构建学习算法方法

1.从一个简单的能快速实现的算法开始，实现该算法并用交叉验证集数据测试这个算法

2.绘制学习曲线，决定增加数据或者添加特征，还是其他选择

3.进行误差分析，人工检查交叉验证集中算法产生预测误差的实例，看看这些实例是否有某种系统化的趋势。
以垃圾邮件过滤器为例，误差分析要做的是检验交叉验证集中我们的算法产生错误预测的所有邮件，看
①是否能将这些邮件按照类分组，看分类器对哪一组邮件预测误差最大并着手优化
②思考怎样改进分类器，是否缺少某些特征，记下这些特征出现的次数，例如记录下错误拼写出现了多少次，异常的邮件路由情况出现了多少次等等，然后从出现次数最多的情况开始着手优化

三、类偏斜的误差度量

类偏斜：训练集中有非常多同一种类的实例，只有很少或没有其他类的实例。

我们将算法预测的结果分成四种情况:
1.正确肯

最低0.47元/天解锁文章

蜡笔小潘和野原小白

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习系统的设计

机器学习系统的设计一、垃圾邮件分类器二、构建学习算法方法三、类偏斜的误差度量四、查全率和查准率之间的权衡五、机器学习数据一、垃圾邮件分类器首先决定如何选择并表达特征向量x。选择一个由100个最常出现在垃圾邮件中的词所构成的列表，根据这些词是否出现在邮件中，获得特征向量（出现为1，不出现为0，尺寸为100×1）。为了构建这个分类器算法，可以采取以下操作：1.收集更多数据，拥有更多的垃圾邮件和非垃圾邮件样本2.基于邮件的路由信息开发一系列复杂的特征3.基于邮件的正文信息开发一系列复杂的特征，包括考
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。