ch1机器学习基础

机器学习的主要任务

  1. 分类:将实例数据划分到合适的分类中
  2. 回归:通过给定数据点拟合最有曲线从而预测数值型数据

以上两个任务都属于监督学习,因为这类算法必须知道预测什么,即目标变量的分类信息或目标数值。

无监督学习:数据没有类别信息,也不会给出目标值

  1. 聚类:将数据集分成由类似的对象组成的多个类的过程
  2. 密度估计:将寻找描述数据统计值的过程
  3. 降维:减少数据特征的维度,更加直观的可视化信息

如何选择合适的算法

  1. 分析使用机器学习算法的目的是什么,即想要完成何种任务?

    如果想要预测目标变量的值,则可以选择监督学习算法,确定选择监督学习算法后,需要进一步确定目标变量的取值类型,如果目标变量是离散取值,则可以采用分类算法,若是连续型取值则需要选择回归算法。

    如果不想知道目标变量的值,则可以选择无监督学习算法,进一步分析是否需要将数据划分为离散的组,若这是唯一需求,则选择聚类算法;如果还需要估计数据与每个分组的相似程度,则需要使用密度估计算法。

  2. 需要分析或收集的数据是什么?

    特征值是离散型还是连续型?是否存在缺失的值?何种原因造成的缺失,数据中是否存在异常值,某个特征发生的频率如何等等

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值