机器学习简介
机器学习结合了数据、模式识别、计算机运算。
机器学习的分类
1.根据应用的目的的不同,主要分为:监督学习、无监督学习、强化学习
监督学习:
根据原始数据与标签估算未知状态或者数值。如“根据之前的股市的变化来预测明天的股市”,“根据用户之前的购物清单来预测下一次的购物”等等。
监督学习的分类:
回归(数值预测)、分类(项目选择)、排序/推荐(排序排列)
- 回归:就是预测数值,主要是预测连续数字(例如实数),比如根据现有的气温变化预测明日的气温。
- 分类:是将输入的数据进行项目分类。如:判断一本书在图书馆属于哪一个类别。
- 排序/推荐:推荐系统对用户的商品喜好(评分、购买是否等)进行预测。需要考虑观众与电影、观众与评分等多种关系,而不是输入/输出的问题。
无监督学习:
无监督学习是训练机器使用既未分类也未标记的数据的方法。这意味着无法提供训练数据,机器只能自行学习。机器必须能够对数据进行分类,而无需事先提供任何有关数据的信息。在输入数据的时候,不对特征值进行函数预测,而是直接预测数据的性质。
无监督学习的分类:
无监督学习会对数据进行直接的建模。其中具有代表性的就是:聚类、主题模型、概率密度、以及降维。
- 聚类:把类似的数据进行簇划分,也就是将类似的数据划分为不同的簇,以掌握其数据模式。
- 主题模型:与聚类算法相似,却主要用于文本数据。主题模型一般会假设文本由不同主题构成,由此生成单词,并最终构成文本。
- 概率密度估计:根据观测数据推测生成数据的原始分布。如:根据各国学生的身高体重的统计,来估计身高和体重的关系。
- 降维:降低数据的维度,主要应用于将难以进行可视化的复杂多元的高维度数据在视觉空间进行二维平面或者三维空间表达。最具有代表性的降维方法由奇异值分解和主成分分解。
强化学习:
机器通过与环境的互动,寻求长期利益的最大化。与监督学习不同,强化学习对于输入/输出值(标签)的搭配不做明确的规定。
如:“围棋软件可以根据现有的棋局来选择下一步”的学习过程就是有监督学习;而强化学习不仅要考虑下一步,还要从全盘的胜负出发,考虑胜负与得分的问题,从而需要学习一系列取胜方法。
2.根据解决方法的不同,可以分为:统计和深度学习