week1 机器学习介绍

最新推荐文章于 2024-08-02 18:07:59 发布

zy199336

最新推荐文章于 2024-08-02 18:07:59 发布

阅读量299

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/zy199336/article/details/74892090

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1 机器学习介绍

1.1 什么是机器学习

“在未明确变成的情况下，赋予计算机能够学习的能力”
——Arthur Samuel

“对于某个任务T，任务表现衡量P随着任务的完成增长，便称极速那集能够通过经验来学习该任务
—–Tom Mitchell

1.2 监督学习 supervised learning

对于预先给了算法”正确结果”的称之为监督学习
分为:

回归问题 (regression)

已知一些房价数据和对应的房子占地面积，预测一个占地面积为750平方英尺的房屋交易价格可能是多少

解决方式是根据已知的这些数据点，拟合一个符合数据点分布的线来完成数据的预测

分类问题 (classification)

现在有不同年龄的乳腺癌病人和她们身上的肿瘤尺寸以及这些肿瘤是否是恶性的，我们希望通过这些已有的数据预测一个新的病人她的乳腺癌是否是恶性的。

其中圆圈代表良性肿瘤，叉叉代表恶性肿瘤，这样的问题是分类问题，我们希望算法能够学会将新的数据自动分类。

上面的例子只用了两个特征进行分类，既肿瘤的大小和年龄，实际上可能有多个特征，我们希望能够处理无限多个特征的问题，后面我们会学到，例如：支持向量机。

1.3 非监督学习 unsupervised learning

区别于上一节，在监督学习中，我们的数据都有一个具体的结果，例如房子的房价，肿瘤是否为良性。
而在非监督学习中，我们不会告诉计算机一个准确的结果，输入计算机的只是数据的特征，而非监督学习要解决的问题是发现这些数据是否可以分为不同的组
典型的非监督学习的栗子就是聚类问题(clustering)，计算机将根据具体特征，自动将数据进行分类，

eg1.鸡尾酒会问题
在一个满是人的房间中，人们在相互对话，使用麦克风录音，利用聚类问题来识别是哪个人说的。

2 单变量线性回归

2.1 模型表达

考虑上一节的房屋价值估计问题，使用回归问题训练集，如下：

面 积 (x) 201414161534852 . . . 价 值 ($) 460232315178 . . .

$\begin{array}{cc} 面积(x) & 价值($) \\ \hline 2014& 460 \\ 1416&232\\ 1534&315\\ 852&178\\ ...&...\\ \end{array}$

令一些变量标记如下：

变 量 名 m x y (x, y) (x i, y i) h 变 量 代 表 意 义 训 练 集 实 例 个 数 特 征 / 输 入 变 量 目 标 变 量 / 输 出 变 量 训 练 集 中 的 实 例 第 i 个 观 察 实 例 学 习 算 法 解 决 方 案 或 函 数 的 假 设

$\begin{array}{cc} 变量名 & \text{变量代表意义} & \\ \hline m & 训练集实例个数 \\ x & 特征/输入变量 \\ y & 目标变量/输出变量\\ (x,y)&训练集中的实例\\ (x^i,y^i)&第i个观察实例\\ h&学习算法解决方案或函数的假设\\ \end{array}$

$\require{AMScd}$

房 子 大 小 - \to - - - - - 训 练 集 ⏐ ↓ ⏐ ⏐ ⏐ ⏐ 学 习 算 法 ⏐ ↓ ⏐ ⏐ ⏐ ⏐ h - \to - - - - - 估 计 价 格

$\begin{CD} @.训练集 \\ @. @VVV \\ @.学习算法\\ @.@VVV\\ 房子大小@>>>h@>>>估计价格 \end{CD}$

由上图可知，实际上是通过将训练集给我们的训练算法学习，学习得到一个假设h，将房屋尺寸作为输入变量给假设h，就可以得到房屋的预估价格

若用一次函数你和，则h可由下式表示：

h θ = θ 0 + θ 1 \cdot x

$h_\theta=\theta_0+\theta_1·x$
因为这种只含有一个特征/输入变量，因此这种问题叫做单变量线性回归问题

2.2代价函数

现在，我们给出了我们的假设h，只要找到合适的 $\theta_0和\theta_1$ ，使所有训练集的结果都比较满足就能实现目标
现在我们选择代价函数

J (θ 0, θ 1) = 1 2 m \sum i = 1 m (h θ (x i) - y i) 2

$J(\theta_0,\theta_1)=\frac{1}{2m}\sum_{i=1}^m (h_\theta(x^i)-y^i)^2$

它代表了我们现在的假设h与我们想要的假设

h0 $h_0$ 的差距，它越小，代表我们约接近最后的结果。

上图可以看出，存在一点

(θ0,θ1) $(\theta_0,\theta_1)$ 使代价函数

J(θ0,θ1) $J(\theta_0,\theta_1)$ 最小，这个点的

θ0,θ1 $\theta_0,\theta_1$ 就是我们想要的

θ0,θ1 $\theta_0,\theta_1$

2.3梯度下降 gradient descent

梯度下降是一种求函数最小值的算法，我们用它来求代价函数 $J(\theta_0,\theta_1)$ 的最小值

但梯度下降有个问题就是，我们得到的不一定是全局最小值，肯呢个只是局部最小值

批量梯度算法公式：
不停重复，直到收敛：

θ j = θ j - α \partial J ( θ 0 , θ 1 ) \partial θ j {j = 0 j = 1

$\theta_j=\theta_j-\alpha\frac{\partial J(\theta_0,\theta_1)}{\partial\theta_j} \begin{cases} j=0 \\ j=1 \end{cases}$

其中 $\alpha$ 是学习绿，它决定了我们沿着代价函数下降的速率，如果它太大，上述的循环将不会收敛，如果它太小了，那么收敛过程会很慢，程序持续时间过长。当接近收敛点的局部最小值的时候，每一步 $\frac{\partial J(\theta_0,\theta_1)}{\partial\theta_j}$ 会相应减小，因此不用周而复始的人工减小 $\alpha$ ，程序也会自动降低每一步的收敛.

2.4 梯度下降法在线性回归中的运用

在刚刚的梯度下降算法中，有以下公式：

θ j = θ j - α \partial J ( θ 0 , θ 1 ) \partial θ j {j = 0 j = 1

$\theta_j=\theta_j-\alpha\frac{\partial J(\theta_0,\theta_1)}{\partial\theta_j} \begin{cases} j=0 \\ j=1 \end{cases}$
其中导数部分的结果为：

\partial J ( θ 0 , θ 1 ) \partial θ j = \partial \partial θ j 1 2 m \sum i = 1 m (h θ \cdot x i - y i) 2

$\frac{\partial J(\theta_0,\theta_1)}{\partial\theta_j}=\frac{\partial }{\partial\theta_j}\frac{1}{2m}\sum_{i=1}^m(h_\theta·x^i-y^i)^2$

= {1 m \sum m i = 1 (h θ \cdot x i - y i) 1 m (\sum m i = 1 (h θ \cdot x i - y i) \cdot x i) j = 0 j = 1

$=\begin{cases} \frac{1}{m}\sum_{i=1}^m(h_\theta·x^i-y^i) &&j=0 \\ \frac{1}{m}(\sum_{i=1}^m(h_\theta·x^i-y^i)·x^i) &&j=1 \end{cases}$

因此，原梯度下降算法公式为：

{θ 0 = θ 0 - α 1 m \sum m i = 1 (h θ \cdot x i - y i) θ 1 = θ 1 - α 1 m (\sum m i = 1 (h θ \cdot x i - y i) \cdot x i)

$\begin{cases} \theta_0=\theta_0-\alpha\frac{1}{m}\sum_{i=1}^m(h_\theta·x^i-y^i) \\ \theta_1=\theta_1-\alpha\frac{1}{m}(\sum_{i=1}^m(h_\theta·x^i-y^i)·x^i) \end{cases}$