机器学习的应用场景
1、电子商务中的智能推荐
淘宝通过用户的浏览记录和购买记录,对用户行为进行预测,进行产品推荐
2、社交网络中的效果广告
如果用户经常点赞或者转发某类型的微博或视频,系统就会将该类型的广告展示给用户
3、互联网金融中的风控系统
银行等金融机构,为用户提供贷款或投资业务时,需要尽可能的减低自己的资产损失,最好是收集到已知的用户欺诈行为数据,分析建模,提前预测是否可能存在欺诈行为并作出对策
4、新闻资讯中的内容审查
例如“精准辟谣”功能,运用机器学习的算法,对内容进行识别,如果判断为是虚假信息,则会提交给审核团队,审核属实之后,虚假信息就会被系统屏蔽,不会给用户进行推送
5、其他行业中的使用
医疗行业,智能物流,智能家居,无人驾驶……
机器学习中的基本概念
在学习过程中,我们需要熟悉机器学习中的一些基本概念,比如:
- 什么是有监督学习,什么是无监督学习,他们之间的区别是什么,在应用方面有什么不同;
- 对机器学习的“分类”和“回归”有基本认识,清楚在什么情景下使用分类算法,在什么情景下使用回归算法;
- 理解模型的“泛化”,明白在什么情况下模型会出现“过拟合”现象,在什么情况下会出现“欠拟合”现象。
机器学习中的常见算法
- K最近邻算法
- 线性模型
- 朴素贝叶斯
- 决策树
- 随即森林
- SVMs
- 神经网络
注:我们的目的是清楚每种算法的基本原理和用途,他们的特性分别是什么,在不同数据集中表现如何,如何使用它们建模,模型的参数如何调整等。
对数据进行处理的技巧
现实数据往往很复杂,也许特征变量会很大,即数据维度会高很多,也许并没有训练数据集供我们使用,因此我们必须要掌握一些数据处理技能,比如如何对数据进行降维,或者聚类,让数据更容易被理解。
有监督学习与无监督学习
有监督学习:通过现有训练数据集进行建模,再用模型对新的数据样本进行分类或者回归分析
在监督学习中,训练数据集一般包含样本特征变量及分类标签,机器使用不同的算法通过这些数据推断出分类的方法,并运用于新的样本中。
常见的有监督学习方法是分类和回归。对分类来说,机器学习的目标是对样本的类标签进行预测,判断样本属于哪一个分类,结果是离散的数据。对回归分析来说,其目标是要预测一个连续的数值或者是范围。
无监督学习:在没有训练数据集的情况下,对没有标签的数据进行分析并建立合适的模型,以便给出问题解决方案的方法
在无监督学习中,常见的两种任务类型是数据转换和聚类分析。
数据转换是把复杂数据集通过非监督式学习算法进行转换,使其更容易理解。常见数据转换方法之一是数据降维,即通过对特征变量较多的数据集进行分析,将无关紧要的特征变量去除,保留关键特征变量。
聚类算法则是通过把样本划归到不同分组的算法,每个分组中的元素都具有比较接近的特征。聚类算法主要应用在统计数据分析、图像分析、计算机视觉等领域。
模型的泛化、过拟合与欠拟合
在有监督学习中,我们会在训练数据集上建立一个模型,再把这个模型用于新的未见过的数据中,这个过程我们称之为模型的泛化。
但我们应该采用什么样的标准来判断一个模型的泛化是比较好的?我们可以使用测试数据集对模型的表现进行评估。如果我们的模型非常复杂,以至于在拟合训练数据集时表现很好,但在测试数据集上表现很差,说明模型出现了过拟合问题。
相反,若模型过于简单,连训练数据集的特点都不能完全考虑到的话,这样会导致在训练数据集和测试数据集上表现都很差,我们说该模型出现了欠拟合问题。