机器学习笔记1-Supervised learning

最新推荐文章于 2022-07-06 22:51:19 发布

xdgs_2005

最新推荐文章于 2022-07-06 22:51:19 发布

阅读量554

点赞数

分类专栏：人工智能

本文链接：https://blog.csdn.net/xdgs_2005/article/details/52336793

版权

人工智能专栏收录该内容

9 篇文章 0 订阅

订阅专栏

本文来自斯坦福大学公开课CS229,Andrew Ng学习笔记
1.1 引言
从一个房屋面积和价格的关系入手，房屋面积和价格的数据集如下:
这里写图片描述
图形化的数据如下:

从这个数据集中，我们如何构建模型预测房价和面积的关系呢？
为了方便后面的描述，先引入一些表示方法。
$x^{(i)}$ –input features
$y^{(i)}$ –output,target variable
{( $x^{(i)}$ , $y^{(i)}$ );i=1,2,…,m} –training set
X –space of input values
Y –space of output values
supervised learning可以描述为从给定的训练集中学习一个从X到Y的映射关系h(x),使得h(x)与对应的y而言是一个好的预测。如下图所示:
这里写图片描述
当target variable的取值是连续(continuous)的,我们称此learning problem为regression problem，如果target variable的取值是离散的(discrete),我们称此learning problem为classification problem.
1.2 Linear Regression
在房屋数据集中引入新的维度：房屋的bedrooms，更新后的数据如下:
这里写图片描述
用 ${x_1}^{(i)}$ 表示第i个房间的面积, ${x_2}^{(i)}$ 第i个房间的bedrooms的数目,首先假设房屋价格与房屋面积和bedrooms的关系如下:
$h_{\theta}(x)={\theta}_0 + {\theta}_1*x_1 + {\theta}_2*x_2$
上式可以简写为:
$h(x)={\sum_{i=0}^{n}}{{\theta}_i}*{x_i} = {\theta}^T * x$ 其中 $x_0=1$
$h(x_i)$ 与 $y_i$ 的训练函数:
$J(\theta) = {\frac{1}{2}}{\sum_{i=0}^{m}({h_{\theta}}(x)-{y_{i}}})^2$
1.2.1 LMS(least mean squares) algorithm
首先给出一个初始的猜测的 $\theta$ 值，然后通过gradient descent 算法不断的迭代修改 $\theta$ ,直至J( $\theta$ )取得最小值。 $\theta$ 的更新公式：
${\theta_j :} = {\theta_j} - {\alpha}{\frac{\delta}{\delta{\theta_j}}}J(\theta) (j=1,2,...n)$
考虑只有一个训练集(x,y)的情况:
${\frac{\delta}{\delta{\theta_j}}}J(\theta) = {\frac{\delta}{\delta{\theta_j}}}({h_{\theta}(x)-{y}})^2$
$=({h_{\theta}(x)-{y}}){\frac{\delta}{\delta{\theta_j}}}({h_{\theta}(x)-{y}})$
$=({h_{\theta}(x)-{y}}){x_j}$
单个训练样本的更新公式:
${\theta_j :} = {\theta_j} - {\alpha}({h_{\theta}(x)-{y}}){x_j} (j=1,2,...n)$
多于一个训练样本的情况：
方法一:
Repeat until convergence {
${\theta_j :} = {\theta_j} - {\alpha}{\sum_{i=0}^{m}}({h_{\theta}(x)-{y}}){x_j} (j=1,2,...n)$
}
方法二:
Repeat until convergence {
for i=1 to m {
${\theta_j :} = {\theta_j} - {\alpha}({h_{\theta}(x)-{y}}){x_j} (j=1,2,...n)$
}
}
通常情况下，方法二比方法一收敛的速度更快，因此当样本集数量较大时，通常会选择方法二。
1.2.2 The normal equations
先引入一系列定义：
$f: R^{m*n}->R$ f是将 m*n维向量映射到实数空间的相对于矩阵A的导数定义如下:

Δ A f (A) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ δ f δ A 11 ⋮ δ f δ A m 1 \dots ⋱ \dots δ f δ A 1 n ⋮ δ f δ A m n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

${\Delta_A}f(A)= \begin{bmatrix} {\frac{{\delta}f}{{\delta}{A_{11}}}} & \cdots & {\frac{{\delta}f}{{\delta}{A_{1n}}}} \\ \vdots & \ddots & \vdots \\ {\frac{{\delta}f}{{\delta}{A_{m1}}}} &\cdots & {\frac{{\delta}f}{{\delta}{A_{mn}}}} \end{bmatrix}$
矩阵trace：
假设n*n的方阵A，

t r a c e (A) = \sum i = 0 n A i i

$trace(A)={\sum_{i=0}^{n}}{A_{ii}}$ ,对于实数a,tr(a)=a.
trace性质：
1) A、B均为方阵，则有trAB=trBA
2) trABC=trBCA=trCAB, rABCD=trBCDA=trCDAB=trDABC
3)

trA=trAT $trA=trA^T$
4) tr(A+B) = trA + trB
5) tr(aA)=a*trA
6)

ΔAtrAB=BT ${\Delta_A}trAB = B^T$
7)

ΔATf(A)=(ΔAf(A))T ${\Delta_{A^T}}f(A) = {({\Delta_{A}}f(A))}_T$
8)

ΔAtrABATC=CAB+CTABT ${\Delta_A}trAB{A^T}C = CAB +{C^T}A{B^T}$ （涉及到复合函数求导，参考 https://en.wikipedia.org/wiki/Matrix_calculus）
9)

ΔA|A|=|A|(A−1)T ${\Delta_A}|A| = |A|({A^{-1}})^T$ (待证明)
以上述矩阵为基础，重新定义

J(θ) $J({\theta})$ ,
样本矩阵：

X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ (x (1)) T (x (2)) T ⋮ (x (m)) T ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

$X= \begin{bmatrix} ({x^{(1)}})^T \\ ({x^{(2)}})^T \\ \vdots \\ ({x^{(m)}})^T \\ \end{bmatrix}$
target values:

Y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ y (1) y (2) ⋮ y (m) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

$Y= \begin{bmatrix} {y^{(1)}} \\ {y^{(2)}} \\ \vdots \\ {y^{(m)}} \\ \end{bmatrix}$

X θ - Y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ (x (1)) T θ (x (2)) T θ ⋮ (x (m)) T θ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ - ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ y (1) y (2) ⋮ y (m) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

$X{\theta}-Y= \begin{bmatrix} ({x^{(1)}})^T{\theta} \\ ({x^{(2)}})^T{\theta} \\ \vdots \\ ({x^{(m)}})^T{\theta} \\ \end{bmatrix}-\begin{bmatrix} {y^{(1)}} \\ {y^{(2)}} \\ \vdots \\ {y^{(m)}} \\ \end{bmatrix}$

= ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ h θ (x (1)) - y (1) h θ (x (2)) - y (2) ⋮ h θ (x (m)) - y (m) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

$= \begin{bmatrix} {h_{\theta}(x^{(1)})}-{y^{(1)}} \\ {h_{\theta}(x^{(2)})}-{y^{(2)}} \\ \vdots \\ {h_{\theta}(x^{(m)})}-{y^{(m)}} \\ \end{bmatrix}$
由于