《吴恩达机器学习》笔记——12 机器学习系统设计
1 确定执行的优先级
构建一个垃圾邮件分类器
监督学习 | 输入 | 输出 |
---|---|---|
符号 | x x x | y y y |
描述 | email的特征 | - |
选择 | 选择100个词来表明是否为垃圾邮件 x ∈ R 100 x\in\mathbb{R}^{100} x∈R100 x j = { 1 若 单 词 j 出 现 在 邮 件 中 0 其 他 x_j=\left\{\begin{matrix}1 &若单词j出现在邮件中\\0&其他\end{matrix}\right. xj={10若单词j出现在邮件中其他 | 垃圾邮件(1)或非垃圾邮件(0) |
减小误差方法 | 例子 |
---|---|
收集大量数据 | honeypot |
用更复杂的特征向量描述邮件 | 邮件标头 |
根据邮件正文构建更复杂的特征向量 | - |
检测出垃圾邮件中的错误拼写 | - |
2 误差分析
推荐方法 |
---|
通过一个简单的算法来快速地实现 |
画出相应的学习曲线来找出算法是否存在高偏差或高方差的问题 |
误差分析:观察交叉验证集的情况 |
3 不对称性分类的误差评估
偏斜类 |
---|
一个类中的样本数与另一个类的数据相比多很多 |
预测类\真实类 | 1 | 0 |
---|---|---|
1 | True Positive | False Positive |
0 | False Negative | True Negative |
评估 | 查准率(Precision( P )) | 召回率(Recall( R )) | F 1 F_1 F1值 |
---|---|---|---|
公式 | T P T P + F P \frac{TP}{TP+FP} TP+FPTP | T P T P + F N \frac{TP}{TP+FN} TP+FNTP | 2 P R P + R 2\frac{PR}{P+R} 2P+RPR |
目标 | 高 | 高 | 高 |