机器学习第二章-单变量线性回归

最新推荐文章于 2024-02-15 20:49:06 发布

zaishaoyi

最新推荐文章于 2024-02-15 20:49:06 发布

阅读量208

点赞数 1

本文链接：https://blog.csdn.net/zaishaoyi/article/details/95677556

版权

一、模型表示（Model Representation）

1.1 监督学习分类

1.2 课程中常用符号

1.3 监督学习的学习方式（以房价预测为例）

二、代价函数（Cost Function）

step4：代价函数(Cost Function)

2.3 假设函数与代价函数的区别

2.4 代价函数的直观理解

三、梯度下降（Gradient Desent）

四、应用

一、模型表示（Model Representation）

以单变量房价预测为例

1.1 监督学习分类

回归问题：预测值连续（如通过房屋面积预测房价）
分类问题：预测值离散（如预测良性/恶性肿瘤）

1.2 课程中常用符号

m：样本数量

x：输入变量，也叫特征。通常是多维向量

y：输出变量，也叫目标变量。

(x,y)：训练样本

$(x^{i}, y^{i})$ : 第i个训练样本

1.3 监督学习的学习方式（以房价预测为例）

注：

a. 线性模型是最简单的监督学习模型，是后续其他模型的基础

b. 预测函数（假设） $h_{\Theta }(x)$ 是以 $\vec{\theta }$ 的为参数的x的函数，简写做 h(x)

二、代价函数（Cost Function）

2.1 问题（Task）：

根据房屋面积（x）预测房屋价格y

2.2 解决步骤

step1: 选择模型（假设）

Hypothesis : $h_{\theta }(x) = \theta _{0} + \theta _{1}\cdot x$

step2: 模型参数

Parameters: $\theta _{0}$ , $\theta _{1}$

step3: 目标（Goal）

选择 $\theta _{0}$ , $\theta _{1}$ 使得模型的预测值 $h_{\theta }(x)$ 与实际目标值 y 最接近，用函数表示为： $\mathop{minimize}\limits_{\theta _{0},\theta _{1}}\frac{1}{2\cdot m}\sum_{i=1}^{m}(h_{\theta }(x^{(i)})-y^{(i)})^{2}$

注：

1、均方误差公式， 1/2是为了后续求解计算方便；

2、均方误差公式也适用于其他回归问题

step4：代价函数(Cost Function)

$J(\theta ) = \frac{1}{2\cdot m}\sum_{i=1}^{m}(h_{\theta }(x^{(i)}) - y^{(i)})^{2}$ 所以上述目标函数可以表示为 $minimizeJ(\theta )$

2.3 假设函数 $h_{\theta }(x)$ 与代价函数 $J(\theta )$ 的区别

$h_{\theta }(x)$ 中 $\theta$ 固定，是关于x的函数

$J(\theta )$ 在训练集上， $x^{(i)}$ , $y^{(i)}$ 固定，是 $\theta$ 的参数

2.4 代价函数 $J(\theta )$ 的直观理解

2.4.1 $\theta _{0} = 0$ ， $h_{\theta }(x)$ 为过原点的直线，假设有3个样本(1,1),(2,2),(3,3):

$J(\theta ) = \frac{7}{3}\cdot (\theta_{1} -1)^{2}$ 在 $\theta _{1} = 1$ 时取得最小值 0

2.4.2 $\theta _{0},\theta _{1}$ 均不为0

从右侧等值线图可以看出，500左右，代价函数取得最小值点

图 2.4.2.-1 代价函数图图2.4.2-2 代价函数等值线图

三、梯度下降（Gradient Desent）

问题： $J(\theta ) = \frac{1}{2\cdot m}\sum_{i=1}^{m}(h_{\theta }(x^{(i)}) - y^{(i)})^{2}$

目标：求上述函数最小值

求解：

1、 $\theta _{0},\theta _{1}$ 赋初值

2、沿 $J(\theta )$ 减小的方向改变 $\theta _{0},\theta _{1}$ ，直到找到一个最小值（继续迭代 $\theta _{0},\theta _{1}$ 不再发生变化）

repeat until covergence {

$\theta _{j} := \theta _{j} - \alpha \cdot \frac{\partial }{\partial \theta _{j}}J(\theta _{0}, \theta _{1}) (for j = 0,1)$

}

注：

1、 $\alpha$ 为学习率，控制步长。学习率过小，则迭代过程常；学习率过大，则会造成无法收敛，甚至发散。

2、减号后面学习率与偏导的乘积为步长，随着坡度越来越缓，步长越来越小

3、参数同步更新!!!（如果不同步更新的话，将会演变成其他算法。比如？TODO）

$temp0 := \theta _{0} - \alpha \cdot \frac{\partial }{\partial \theta _{0}}J(\theta _{0},\theta _{1})\\ \quad\quad temp1 := \theta _{1} - \alpha \cdot \frac{\partial }{\partial \theta _{1}}J(\theta _{0},\theta _{1})\\ \theta _{0} := temp0\\ \theta _{1} := temp1$

对线性函数，

$\frac{\partial }{\partial \theta _{0}}J(\theta _{0},\theta _{1}) :=\frac{1}{m}\sum_{i=1}^{m}(h_{\theta }(x^{(i)})-y^{(i)})\\\frac{\partial }{\partial \theta _{1}}J(\theta _{0},\theta _{1}) :=\frac{1}{m}\sum_{i=1}^{m}(h_{\theta }(x^{(i)})-y^{(i)})\cdot x^{(i)}$