机器学习基础

1. 机器学习开发流程

在这里插入图片描述

(1)收集数据
我们可以使用很多方法收集样本数据,如:制作网络爬虫从网站上抽取数据、从RSS反馈或者API中得到信息、设备发送过来的实测数据。
(2)准备输入数据(数据的基本处理)
得到数据之后,还必须确保数据格式符合要求。
(3)分析输入数据(特征工程)
这一步的主要作用是确保数据集中没有垃圾数据。如果是使用信任的数据来源,那么可以直接跳过这个步骤
(4)训练算法
找到合适算法进行预测。如果使用无监督学习算法,由于不存在目标变量值,故而也不需要训练算法,所有与算法相关的内容在第(5)步
(5)测试算法
这一步将实际使用第(4)步机器学习得到的知识信息。当然在这也需要评估结果的准确率,然后根据需要重新训练你的算法。若准确率不合格:1-调整参数 2-换算法 3-特征工程
(6)使用算法
转化为应用程序,执行实际任务。以检验上述步骤是否可以在实际环境中正常工作。如果碰到新的数据问题,同样需要重复执行上述的步骤

2. 机器学习模型是什么

定义:通过一种映射关系从输入值到输出值

模型 = 算法 + 数据

3. 机器学习算法分类

3.1 监督分类

定义:可以由输入数据中学到或建立一个模型,并依此模式推测新的结果。输入数据是由输入特征值和目标值所组成。函数的输出可以是一个连续的值 (称为回归),或是输出是有限个离散值(称作分类)。

分类(目标值离散型): k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络

分类是监督学习的一个核心问题,在监督学习中,当输出变量取有限个离散值时,预测问题变成为分类问题。最基础的便是二分类问题,即判断是非,从两个类别中选择一个作为预测结果;

分类问题的应用:

在银行业务中,构建一个客户分类模型,按客户按照贷款风险的大小进行分类

图像处理中,分类可以用来检测图像中是否有人脸出现,动物类别等

手写识别中,分类可以用于识别手写的数字

文本分类,这里的文本可以是新闻报道、网页、电子邮件、学术论文

回归(目标值连续型):线性回归、岭回归

回归是监督学习的另一个重要问题。回归用于预测输入变量和输出变量之间的关系,输出是连续型的值

回归问题的应用:

房价预测,根据某地历史房价数据,进行一个预测

金融信息,每日股票走向

3.2 非监督分类

定义:可以由输入数据中学到或建立一个模型,并依此模式推测新的结果。输入数据是由输入特征值所组成。

聚类: k-means

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值