什么是机器学习

机器学习的应用场景

1、电子商务中的智能推荐
淘宝通过用户的浏览记录和购买记录,对用户行为进行预测,进行产品推荐
2、社交网络中的效果广告
如果用户经常点赞或者转发某类型的微博或视频,系统就会将该类型的广告展示给用户
3、互联网金融中的风控系统
银行等金融机构,为用户提供贷款或投资业务时,需要尽可能的减低自己的资产损失,最好是收集到已知的用户欺诈行为数据,分析建模,提前预测是否可能存在欺诈行为并作出对策
4、新闻资讯中的内容审查
例如“精准辟谣”功能,运用机器学习的算法,对内容进行识别,如果判断为是虚假信息,则会提交给审核团队,审核属实之后,虚假信息就会被系统屏蔽,不会给用户进行推送
5、其他行业中的使用
医疗行业,智能物流,智能家居,无人驾驶……

机器学习中的基本概念

在学习过程中,我们需要熟悉机器学习中的一些基本概念,比如:

  1. 什么是有监督学习,什么是无监督学习,他们之间的区别是什么,在应用方面有什么不同;
  2. 对机器学习的“分类”和“回归”有基本认识,清楚在什么情景下使用分类算法,在什么情景下使用回归算法;
  3. 理解模型的“泛化”,明白在什么情况下模型会出现“过拟合”现象,在什么情况下会出现“欠拟合”现象。

机器学习中的常见算法

  • K最近邻算法
  • 线性模型
  • 朴素贝叶斯
  • 决策树
  • 随即森林
  • SVMs
  • 神经网络

:我们的目的是清楚每种算法的基本原理和用途,他们的特性分别是什么,在不同数据集中表现如何,如何使用它们建模,模型的参数如何调整等。

对数据进行处理的技巧

现实数据往往很复杂,也许特征变量会很大,即数据维度会高很多,也许并没有训练数据集供我们使用,因此我们必须要掌握一些数据处理技能,比如如何对数据进行降维,或者聚类,让数据更容易被理解。

有监督学习与无监督学习

有监督学习:通过现有训练数据集进行建模,再用模型对新的数据样本进行分类或者回归分析

在监督学习中,训练数据集一般包含样本特征变量及分类标签,机器使用不同的算法通过这些数据推断出分类的方法,并运用于新的样本中。
常见的有监督学习方法是分类和回归。对分类来说,机器学习的目标是对样本的类标签进行预测,判断样本属于哪一个分类,结果是离散的数据。对回归分析来说,其目标是要预测一个连续的数值或者是范围。

无监督学习:在没有训练数据集的情况下,对没有标签的数据进行分析并建立合适的模型,以便给出问题解决方案的方法

在无监督学习中,常见的两种任务类型是数据转换和聚类分析
数据转换是把复杂数据集通过非监督式学习算法进行转换,使其更容易理解。常见数据转换方法之一是数据降维,即通过对特征变量较多的数据集进行分析,将无关紧要的特征变量去除,保留关键特征变量。
聚类算法则是通过把样本划归到不同分组的算法,每个分组中的元素都具有比较接近的特征。聚类算法主要应用在统计数据分析、图像分析、计算机视觉等领域。

模型的泛化、过拟合与欠拟合

在有监督学习中,我们会在训练数据集上建立一个模型,再把这个模型用于新的未见过的数据中,这个过程我们称之为模型的泛化
但我们应该采用什么样的标准来判断一个模型的泛化是比较好的?我们可以使用测试数据集对模型的表现进行评估。如果我们的模型非常复杂,以至于在拟合训练数据集时表现很好,但在测试数据集上表现很差,说明模型出现了过拟合问题
相反,若模型过于简单,连训练数据集的特点都不能完全考虑到的话,这样会导致在训练数据集和测试数据集上表现都很差,我们说该模型出现了欠拟合问题

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值