机器学习初级篇1

机器学习

机器学习的应用

目前机器学习主要应用于无人驾驶、人脸识别、语音智能问答、推荐系统及广告点击率预估等诸多领域。

机器学习的定义

为了解决任务T,设计一段程序,从经验E中学习,达到性能度量值P,当且仅当有了经验E后,经过P评判,程序在处理T时的性能得到了提升,我们将这一过程称为机器学习。
其中,
任务T:我们实际的应用场景。
经验E:我们的数据和学习的模型。
度量值P:模型在新数据上的表现好坏标准。

常见的几个概念

1.拟合:构建的算法符合给定数据的特征。
2.鲁棒性:也就是健壮性、稳健性,是系统的健壮性;当存在异常数据的时候,算法也会拟合数据。
3.特征:每个样本包含的多个线索称为特征式维度。

机器学习的分类

在这里插入图片描述
补充:
1.联合概率分布:假设有随机变量X,Y,此时P(X=a & Y=b)用于表示X=a且X=b的概率。
2.条件概率:事件A在事件B发生条件下发生的概率,条件概率表示P(A|B),读作“A给定B”。下面是条件概率公式:
条件概率公式
贝叶斯公式:
贝叶斯公式

机器学习的基本流程

1.特征表示
2.选择模型
3.训练模型
4.模型评估

机器学习的三要素

1.模型:就是要进行学习的概率分布或决策函数。
所有可能的条件概率分布或者决策函数构成的集合,就是模型的假设空间。
2.策略:从假设空间中学习最优模型的方法。
损失函数:衡量模型好与不好的指标,记作:L(Y,f(x))
其中,Y代表实际值,f(x)代表函数的预测值,公式如下:在这里插入图片描述
3.算法:
应用奥卡姆剃刀原则:“如无必要,勿增实体”——简单有效原理。
算法是指学习模型时的具体计算方法,求解最优模型归结为一个最优化问题。统计学习的算法等价于求解最优化问题的算法,也就是求解析式或数值解。

机器学习的算法原理

三个重要公式:

1.决策函数:

1.决策函数:

2.损失函数—策略

在这里插入图片描述

3.算法公式:

梯度下降公式——
在这里插入图片描述

梯度下降三种方式

1.批量梯度下降法(Batch Gradient Descent):

在这里插入图片描述
在这里插入图片描述
批量梯度下降指的是再梯度下降的每一步中,我们都用到了所有的训练样本,在梯度下降中,在计算微分时,我们需要求和运算,因此得名。

2.随机梯度下降法(Stochastic Gradient Descent):

在这里插入图片描述
随机梯度下降法,和批量梯度下降法是两个极端,批量梯度下降每次采用所有数据来梯度下降,随机梯度下降每次用一个样本来梯度下降。
优点
对于训练速度来说,随机梯度下降法由于每次仅仅采用一个样本来迭代,训练速度很快,而批量梯度下降法再样本量很大的时候,训练速度不尽如人意。
缺点
对于准确度来说,随机梯度下降法每次训练仅仅用一个样本决定梯度方向,可能得到局部最小值。
对于收敛速度来看,由于随机梯度下降法一次迭代一个样本,导致迭代方向变化很大,不能很快的收敛到局部最优解。

3.小批量梯度下降法(mini Batch Gradient Descent):

在这里插入图片描述
优点
使用多个样本相比SGD提高了梯度估计的精度,小批量的估计,相当于在学习过程中加入了噪声,会有一些正则化效果。
缺点
同SGD一样,每次梯度估计的方向不确定,可能需要很长时间接近最小值点,不会收敛通常在使用MBGD之前先将数据集随机打乱,然后再划分Mini-batch,所以MBGD有时也称为SGD。
Mini-batch大小的选择通常使用2的幂数,可以获得更少的运行时间。
遍历完所有数据,称为一个epoch,通常需要遍历几次epoch才行。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值