[Machine Learning] 9 机器学习系统的设计(Machine Learning System Design)

本文介绍了机器学习系统设计的重点,包括如何确定工作优先级,进行错误分析,处理偏斜类的误差评估,以及在查准率和查全率之间进行权衡。错误分析通过查看误分类的实例来改进算法,而偏斜类问题需要关注查准率和查全率。在数据量足够大的情况下,即使算法简单,也能通过大量数据提升性能。
摘要由CSDN通过智能技术生成

在这里插入图片描述

9 Machine Learning System Design(机器学习系统的设计)

9.1 Prioritizing What to Work On

例子:一个垃圾邮件分类器算法。

为了解决这样一个问题,首先要确定如何选择并表达特征向量𝑥。例如可以选择由 100 个最常出现在垃圾邮件中的词所构成的列表,根据这些词是否有在邮件中出现,来获得特征向量(出现为 1,不出现为 0),尺寸为 100×1。
在这里插入图片描述
为了构建这个分类器算法,可以做很多事,例如:

  1. 收集更多的数据,让我们有更多的垃圾邮件和非垃圾邮件的样本
  2. 基于邮件的路由信息开发一系列复杂的特征
  3. 基于邮件的正文信息开发一系列复杂的特征,包括考虑截词的处理
  4. 为探测刻意的拼写错误(把 watch 写成 w4tch)开发复杂的算法

9.2 Error Analysis

构建一个学习算法的推荐方法为:

    • 0
      点赞
    • 0
      收藏
      觉得还不错? 一键收藏
    • 0
      评论
    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值