什么是机器学习

最新推荐文章于 2021-02-18 06:54:07 发布

wutong14220

最新推荐文章于 2021-02-18 06:54:07 发布

阅读量169

点赞数 1

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/wutong14220/article/details/100643947

版权

数据挖掘专栏收录该内容

5 篇文章 0 订阅

订阅专栏

什么是机器学习

机器学习的应用场景
机器学习中的基本概念
机器学习中的常见算法
对数据进行处理的技巧
有监督学习与无监督学习
模型的泛化、过拟合与欠拟合

机器学习的应用场景

1、电子商务中的智能推荐
淘宝通过用户的浏览记录和购买记录，对用户行为进行预测，进行产品推荐
2、社交网络中的效果广告
如果用户经常点赞或者转发某类型的微博或视频，系统就会将该类型的广告展示给用户
3、互联网金融中的风控系统
银行等金融机构，为用户提供贷款或投资业务时，需要尽可能的减低自己的资产损失，最好是收集到已知的用户欺诈行为数据，分析建模，提前预测是否可能存在欺诈行为并作出对策
4、新闻资讯中的内容审查
例如“精准辟谣”功能，运用机器学习的算法，对内容进行识别，如果判断为是虚假信息，则会提交给审核团队，审核属实之后，虚假信息就会被系统屏蔽，不会给用户进行推送
5、其他行业中的使用
医疗行业，智能物流，智能家居，无人驾驶……

机器学习中的基本概念

在学习过程中，我们需要熟悉机器学习中的一些基本概念，比如：

什么是有监督学习，什么是无监督学习，他们之间的区别是什么，在应用方面有什么不同；
对机器学习的“分类”和“回归”有基本认识，清楚在什么情景下使用分类算法，在什么情景下使用回归算法；
理解模型的“泛化”，明白在什么情况下模型会出现“过拟合”现象，在什么情况下会出现“欠拟合”现象。

机器学习中的常见算法

K最近邻算法
线性模型
朴素贝叶斯
决策树
随即森林
SVMs
神经网络

注：我们的目的是清楚每种算法的基本原理和用途，他们的特性分别是什么，在不同数据集中表现如何，如何使用它们建模，模型的参数如何调整等。

对数据进行处理的技巧

现实数据往往很复杂，也许特征变量会很大，即数据维度会高很多，也许并没有训练数据集供我们使用，因此我们必须要掌握一些数据处理技能，比如如何对数据进行降维，或者聚类，让数据更容易被理解。

有监督学习与无监督学习

有监督学习：通过现有训练数据集进行建模，再用模型对新的数据样本进行分类或者回归分析

在监督学习中，训练数据集一般包含样本特征变量及分类标签，机器使用不同的算法通过这些数据推断出分类的方法，并运用于新的样本中。
常见的有监督学习方法是分类和回归。对分类来说，机器学习的目标是对样本的类标签进行预测，判断样本属于哪一个分类，结果是离散的数据。对回归分析来说，其目标是要预测一个连续的数值或者是范围。

无监督学习：在没有训练数据集的情况下，对没有标签的数据进行分析并建立合适的模型，以便给出问题解决方案的方法

在无监督学习中，常见的两种任务类型是数据转换和聚类分析。
数据转换是把复杂数据集通过非监督式学习算法进行转换，使其更容易理解。常见数据转换方法之一是数据降维，即通过对特征变量较多的数据集进行分析，将无关紧要的特征变量去除，保留关键特征变量。
聚类算法则是通过把样本划归到不同分组的算法，每个分组中的元素都具有比较接近的特征。聚类算法主要应用在统计数据分析、图像分析、计算机视觉等领域。

模型的泛化、过拟合与欠拟合

在有监督学习中，我们会在训练数据集上建立一个模型，再把这个模型用于新的未见过的数据中，这个过程我们称之为模型的泛化。
但我们应该采用什么样的标准来判断一个模型的泛化是比较好的？我们可以使用测试数据集对模型的表现进行评估。如果我们的模型非常复杂，以至于在拟合训练数据集时表现很好，但在测试数据集上表现很差，说明模型出现了过拟合问题。
相反，若模型过于简单，连训练数据集的特点都不能完全考虑到的话，这样会导致在训练数据集和测试数据集上表现都很差，我们说该模型出现了欠拟合问题。

wutong14220

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
什么是机器学习

什么是机器学习机器学习的应用场景机器学习中的基本概念机器学习中的常见算法对数据进行处理的技巧有监督学习与无监督学习模型的泛化、过拟合与欠拟合机器学习的应用场景1、电子商务中的智能推荐淘宝通过用户的浏览记录和购买记录，对用户行为进行预测，进行产品推荐2、社交网络中的效果广告如果用户经常点赞或者转发某类型的微博或视频，系统就会将该类型的广告展示给用户3、互联网金融中的风控系统银行等金融机...
复制链接

扫一扫