机器学习系统的设计
一、垃圾邮件分类器
首先决定如何选择并表达特征向量x。
选择一个由100个最常出现在垃圾邮件中的词所构成的列表,根据这些词是否出现在邮件中,获得特征向量(出现为1,不出现为0,尺寸为100×1)。
为了构建这个分类器算法,可以采取以下操作:
1.收集更多数据,拥有更多的垃圾邮件和非垃圾邮件样本
2.基于邮件的路由信息开发一系列复杂的特征
3.基于邮件的正文信息开发一系列复杂的特征,包括考虑截词的处理
4.为探测刻意的拼写错误开发复杂的算法
二、构建学习算法方法
1.从一个简单的能快速实现的算法开始,实现该算法并用交叉验证集数据测试这个算法
2.绘制学习曲线,决定增加数据或者添加特征,还是其他选择
3.进行误差分析,人工检查交叉验证集中算法产生预测误差的实例,看看这些实例是否有某种系统化的趋势。
以垃圾邮件过滤器为例,误差分析要做的是检验交叉验证集中我们的算法产生错误预测的所有邮件,看
①是否能将这些邮件按照类分组,看分类器对哪一组邮件预测误差最大并着手优化
②思考怎样改进分类器,是否缺少某些特征,记下这些特征出现的次数,例如记录下错误拼写出现了多少次,异常的邮件路由情况出现了多少次等等,然后从出现次数最多的情况开始着手优化
三、类偏斜的误差度量
类偏斜:训练集中有非常多同一种类的实例,只有很少或没有其他类的实例。
我们将算法预测的结果分成四种情况:
1.正确肯