机器学习(Machine Learning)定义:
为了解决任务T,设计一段程序,从经验E中学习,达到性能度量值P,当且仅当有了经验E后,经过P评判,程序在处理T时的性能得到提升.
机器学习方法三要素
模型
就是要学习的概率分布或决策函数
所有可能的条件概率分布或者决策函数构成的集合就是模型的假设空间
策略
从假设空间中学习最优模型的方法,称为策略
衡量模型好与不好需要一些指标,这时引入风险函数和损失函数来衡量
预测值和真实值通常是不想等的,我们用损失函数或代价函数来度量预测错误的程度,记作
L
(
Y
,
f
(
x
)
)
L(Y,f(x))
L(Y,f(x))
- 0~1损失函数
- 平方损失函数
- 绝对损失函数
- 对数损失函数
R = 1 N ∑ i = 1 n L ( y i , f ( x i ) ) + λ J ( f ) R= \frac{1}{N}\sum_{i=1}^nL(y_{i},f(x_{i}))+\lambda J(f) R=N1i=1∑nL(yi,f(xi))+λJ(f)
算法
是指学习模型时的具体计算方法,求解最优模型归结为一个最优化问题,统计学习的算法等价于求解最优化问题的算法,也就是求解析解或数值解
梯度下降算法
定义:
- 是一个用来求函数最小值的算法
-
批量梯度下降(BGD)
θ 0 = θ 0 − α ∗ 1 m ∑ i = 1 m ( h θ ( x i ) − y i ) \theta_{0} = \theta_{0} - \alpha *\frac{1}{m} \sum_{i=1}^m(h_{\theta}(x^{i})-y^{i}) θ0=θ0−α∗m1i=1∑m(hθ(xi)−yi)
θ 1 = θ 1 − α ∗ 1 m ∑ i = 1 m ( ( h θ ( x i ) − y i ) ) ∗ x i ) \theta_{1} = \theta_{1} - \alpha *\frac{1}{m} \sum_{i=1}^m((h_{\theta}(x^{i})-y^{i}))* x^{i}) θ1=θ1−α∗m1i=1∑m((hθ(xi)−yi))∗xi) -
随机梯度下降法(SGD)
θ i = θ i − α ∗ ( ( h θ ( x i ) − y i ) ∗ x i ) \theta_{i} = \theta_{i} - \alpha *((h_{\theta}(x^{i})-y^{i})* x^{i}) θi=θi−α∗((hθ(xi)−yi)∗xi) -
小批量梯度下降(MBGD)
θ 1 = θ 1 − α ∗ 1 t ∑ i = 1 t ( ( h θ ( x i ) − y i ) ) ∗ x i ) \theta_{1} = \theta_{1} - \alpha *\frac{1}{t} \sum_{i=1}^t((h_{\theta}(x^{i})-y^{i}))* x^{i}) θ1=θ1−α∗t1i=1∑t((hθ(xi)−yi))∗xi)
θ 0 = θ 0 − α ∗ 1 t ∑ i = 1 t ( h θ ( x i ) − y i ) \theta_{0} = \theta_{0} - \alpha *\frac{1}{t} \sum_{i=1}^t(h_{\theta}(x^{i})-y^{i}) θ0=θ0−α∗t1i=1∑t(hθ(xi)−yi)