机器学习进阶 第一节 第六课

机器学习组成

机器学习 = 模型 + 策略 + 算法

其实机器学习可以表示为: Learning = Representation + Evalution + Optimzation. 机器学习主要由三部分组成, 即: 表示 (模型), 评价 (策略) 和优化 (算法).

表示 (模型): Representation

表示主要做的就是建模, 故可以称为模型. 模型要完成的主要工作是转换: 将实际问题转换成为计算机可以理解的问题, 就是我们平时是的建模. 类似于传统的计算学科中的算法, 数据结构, 如何将实际的问题转换成计算机可以表示的方式. 这部分即 “简单的机器学习算法”. 给定数据, 我们怎么区域选择对应的问题去解决, 选择正确的已有的模型是重要的一步.

评价 (策略): Evalution

评价的目标是判断已建好的模型的优劣. 对于第一步中建好的模型, 评价是一个指标, 用于表示模型的优劣. 这里就会是一些评价的指标以及一些评价函数的设计. 在机器学习中会有针对性的评价指标.

优化: Optimization

优化的目标是评价的函数, 我们是希望能够找到最好的模型, 也就是说评价最高的模型.

开发应用程序的步骤

收集数据

我们可以使用很多方法收集样本护具, 如: 制作网络爬虫从网站上抽取数据, 从 RSS 反馈或者 API 中得到信息, 或设备发送过来的实测数据.

准备输入数据

得到数据之后, 必须确保数据格式符合要求.

分析输入数据

这一步的主要作用是确保数据集中没有垃圾数据. 如果是使用信任的数据来源, 那么可以直接跳过这个步骤.

训练算法

机器学习算法从这一步才正宗开始学习. 如果使用无监督学习算法, 由于不存在目标变量值, 故而也不需要训练算法, 所有与算法相关的内容在测试算法中.

测试算法

这一步将实际运用机器学习得到的知识信息. 当然在这也需要评估结果的准确率, 然后根据需要重新训练你的算法.

使用算法

转化为应用程序, 执行实际任务. 以检验上述步骤是否可以在实际环境中正常工作. 如果碰到新的数据问题, 同样需要重复执行上述的步骤.

数据类型

按照机器学习的数据分类我们可以将数据分成:

  • 标称型: 标称型目标变量的结果只在有限目标集中取值, 如真与假 (标称型目标变量主要用于分类)
  • 数值型: 数值型目标变量则可以从无限的数值集合中取值, 如 0.100, 42.001 等 (数值型目标变量主要用于回归分析)

按照数据的本身分布特性:

  • 离散型
  • 连续型

离散型数据

离散型数据: 由记录不同类别个体的数目所得到的数据, 又称计数数据. 所有这些数据全部都是整数, 而且不能再细分, 也不能进一步提高他们的精确度.

连续型数据

变量可以在某个范围内取任意一数, 即变量的取值可以是连续的. 如: 长度, 时间质量等. 这类帧数通常是非整数, 含有小数部分

注: 只要记住一点, 离散型是区间内不可分, 连续型是区间内可分.

机器学习算法分类

分类是监督学习的一个核心问题. 在监督学习中, 当输出变量取有限个离散值时, 预测问题变成为分类问题. 最基础是二分类问题, 即判断是非, 从两个类别中选择一个作为预测结果/

监督学习 (预测)

  • 分类: k-近邻算法, 贝叶斯分类, 决策树与随机森林, 逻辑回归, 神经网络
  • 回归: 线性回归, 岭回归
  • 标注: 隐马科夫模型

无监督学习

聚类: k-means

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值