基本概念

一、机器学习

机器学习就是将无序的数据转换成有用的信息。

二、主要任务

下表列出了机器学习的主要任务。



三、监督学习

1、概念

监督学习:对输入样本经过模型训练后有明确的预期输出。也就是数据集中的每个样本都有相应的“正确答案”(即训练数据集是拥有标记信息的)。再根据这些样本作出预测。

如果预测的是一个连续值(如西瓜成熟度0.99、0.24),则是回归问题。如果目标预测的一组离散值(好瓜、坏瓜),则为分类问题。

2、基本步骤

主要以一个例子来分析。例子:训练一个网络,让其从图像库中识别出你父母的的头像。

(1)数据集的创建和分类

首先,我们需要你给出一定量的照片(数据集),并对所有有你父母的照片进行标注,从而开始此过程。然后我们将把全部照片分成两部分。用一部分来训练网络(训练数据),另一部分用来查看模型在选择我们父母照片操作上的准确程度(验证数据)。等到数据集准备就绪后,就将照片提供给模型。

在数学上,我们的目标就是在深度网络中找到一个函数,这个函数的输入是一张照片,而当你的父母不在照片中时,其输出为0,否则输出1。

(2)训练

为了继续该过程,模型可通过以下规则(激活函数)对每张照片进行预测,从而决定是否点亮工作中的特定节点。这个模型每次从左到右在一个层上操作——现在我们将更复杂的网络忽略掉。当网络为网络中的每个节点计算好这一点后,我们将到达亮起(或未亮起)的最右边的节点(输出节点)。既然我们已知道有你父母的照片是哪些图片,那么就可告诉模型它的预测是对还是错。然后将这些信息反馈(feed back)给网络。该算法使用的这种反馈,就是一个量化“真实答案与模型预测有多少偏差”的函数的结果。这个函数被称为成本函数(cost function),即目标函数。

然后,该函数结果用于修改一个称为反向传播过程中节点之间的连接强度和偏差,因为信息从结果节点“向后”传播。我们会为每个图片都重复一遍此操作,而在每种情况下,算法都在尽量最小化成本函数。其实,我们有多种数学技术可用来验证这个模型是正确还是错误的,但我们常用的是一个常见的方法,我们称之为梯度下降(gradient descent)。Algobeans上有一个 “门外汉”理论可以很好地解释它是如何工作的。

(3)验证

一旦我们处理了第一部分中的所有照片(训练数据),就该准备去测试该模型。我们应充分利用好另一部分(测试数据),并用它们来验证训练有素的模型是否可准确地挑选出含有你父母在内的照片。通常会通过调整和模型相关的各种事物(超参数)来重复步骤2和3。(如里面有多少个节点,有几层,哪些数学函数用于决定节点是否亮起,如何在反向传播阶段积极有效地训练权值等等)。

(4)使用

最后,一旦有了一个准确的模型,你就可将该模型部署到你的应用程序中。你可以将模型定义为API调用,例如ParentsInPicture(photo),并且你可以从软件中调用该方法,从而导致模型进行推理并给出相应的结果。得到一个标注好的数据集可能会很难(也就是很昂贵),因此需要确保预测的价值能够证明获得标记数据的成本是值得的,并且我们首先要对模型进行训练。


四、无监督学习

无监督学习:对输入样本经过模型训练后得到什么输出完全没有预期(训练数据集中的样本是没有标记信息的)。

如(西瓜训练后得出浅色瓜,外地瓜,甜瓜等)。

无监督学习典型的就是——聚类。在聚类学习中,“浅色瓜”“本地瓜”这样的概念我们事先是不知道的,而且学习过程中使用的训练样本通常不拥有标记信息。在聚类中,它将训练集中的西瓜分为了若干组,每组为一个“簇”,这些自动形成的簇可能对应着一些潜在的概念划分,如浅色瓜,外地瓜这类的概念。这样的学习过程对应我们了解数据内在的规律是非常有益的。


常出现在文献中的无监督学习技术:

自编码(Autoencoding)

主成分分析(Principe components analysis)

随机森林(Random forests)

K均值聚类(K-means clustering)

五、如何选择合适的算法

考虑以下两个问题:

1、使用机器学习算法的目的?想要算法完成何种任务?

如果想要预测目标变量的值,可选监督学习算法,否则可选无监督学习算法。确定监督学习算法之后,进一步确定目标变量类型。是离散就选分类,是连续值就选回归。同理,确定无监督学习算法之后,进一步分析是否需要将数据划分为离散的组,如果这是唯一的需求,则用聚类,如何还要估计数据与每个分组的相似程度,则需用密度估计算法。

2、需要分析或收集的数据是什么?

首先,需要充分了解数据,对实际数据了解越充分,越容易创建符合实际需求的应用程序。一般主要了解数据的以下特性:

特征值是离散型变量还是连续型变量

特征值中是否存在缺失的值

何种原因造成缺失值

数据中是否存在异常值

某个特征发生的频率如何等。

【注意:我们只能在一定程度上缩小算法的选择范围,一般是不存在最好的算法的,对于所选的每种算法,都可用其他的机器学习技术来改进其性能。一般来说,发现最好算法的关键环节是反复试错的迭代过程。】


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值