点Ta
9 Machine Learning System Design(机器学习系统的设计)
9.1 Prioritizing What to Work On
例子:一个垃圾邮件分类器算法。
为了解决这样一个问题,首先要确定如何选择并表达特征向量𝑥。例如可以选择由 100 个最常出现在垃圾邮件中的词所构成的列表,根据这些词是否有在邮件中出现,来获得特征向量(出现为 1,不出现为 0),尺寸为 100×1。
为了构建这个分类器算法,可以做很多事,例如:
- 收集更多的数据,让我们有更多的垃圾邮件和非垃圾邮件的样本
- 基于邮件的路由信息开发一系列复杂的特征
- 基于邮件的正文信息开发一系列复杂的特征,包括考虑截词的处理
- 为探测刻意的拼写错误(把 watch 写成 w4tch)开发复杂的算法
9.2 Error Analysis
构建一个学习算法的推荐方法为: