1. 机器学习开发流程
(1)收集数据
我们可以使用很多方法收集样本数据,如:制作网络爬虫从网站上抽取数据、从RSS反馈或者API中得到信息、设备发送过来的实测数据。
(2)准备输入数据(数据的基本处理)
得到数据之后,还必须确保数据格式符合要求。
(3)分析输入数据(特征工程)
这一步的主要作用是确保数据集中没有垃圾数据。如果是使用信任的数据来源,那么可以直接跳过这个步骤
(4)训练算法
找到合适算法进行预测。如果使用无监督学习算法,由于不存在目标变量值,故而也不需要训练算法,所有与算法相关的内容在第(5)步
(5)测试算法
这一步将实际使用第(4)步机器学习得到的知识信息。当然在这也需要评估结果的准确率,然后根据需要重新训练你的算法。若准确率不合格:1-调整参数 2-换算法 3-特征工程
(6)使用算法
转化为应用程序,执行实际任务。以检验上述步骤是否可以在实际环境中正常工作。如果碰到新的数据问题,同样需要重复执行上述的步骤
2. 机器学习模型是什么
定义:通过一种映射关系从输入值到输出值
模型 = 算法 + 数据
3. 机器学习算法分类
3.1 监督分类
定义:可以由输入数据中学到或建立一个模型,并依此模式推测新的结果。输入数据是由输入特征值和目标值所组成。函数的输出可以是一个连续的值 (称为回归),或是输出是有限个离散值(称作分类)。
分类(目标值离散型): k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络
分类是监督学习的一个核心问题,在监督学习中,当输出变量取有限个离散值时,预测问题变成为分类问题。最基础的便是二分类问题,即判断是非,从两个类别中选择一个作为预测结果;
分类问题的应用:
在银行业务中,构建一个客户分类模型,按客户按照贷款风险的大小进行分类
图像处理中,分类可以用来检测图像中是否有人脸出现,动物类别等
手写识别中,分类可以用于识别手写的数字
文本分类,这里的文本可以是新闻报道、网页、电子邮件、学术论文
…
回归(目标值连续型):线性回归、岭回归
回归是监督学习的另一个重要问题。回归用于预测输入变量和输出变量之间的关系,输出是连续型的值
回归问题的应用:
房价预测,根据某地历史房价数据,进行一个预测
金融信息,每日股票走向
…
3.2 非监督分类
定义:可以由输入数据中学到或建立一个模型,并依此模式推测新的结果。输入数据是由输入特征值所组成。
聚类: k-means