Coursera机器学习(Andrew Ng)笔记：回归与分类问题

最新推荐文章于 2023-03-26 00:58:49 发布

wisdom610

最新推荐文章于 2023-03-26 00:58:49 发布

阅读量500

点赞数

分类专栏：机器学习文章标签：机器学习回归与分类问题

本文链接：https://blog.csdn.net/xuanwozhe/article/details/52053185

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

机器学习初学者，原本是写来自己看的，写的比较随意。难免有错误，还请大家批评指正！对其中不清楚的地方可以留言，我会及时更正修改

回归与分类问题

单特征量线性回归问题

线性代数基础

矩阵通常表示做 $\mathbb{R}^{m \times n}$
向量Vector是一个 $n\times1$ 矩阵，记做 $\mathbb{R}^n$
identity Matrix: 单位矩阵，对角线全为1的矩阵。记做 $I_{n\times n}$
对单位矩阵有 $A\times I = I\times A = A$
Matrix inverse: 矩阵的逆，如果 $A$ 是一个 $m\times m$ 的方阵，如果它有逆，则有 $AA^{-1}=A^{-1}A=I$ ，则 $A^{-1}$ 成为矩阵A的逆。没有逆的矩阵成为奇异矩阵(singular)或退化矩阵(degenerate)

matlab or Octava 基础

多元线性回归问题

$n$ = 特征量features的个数
$x^{(i)}$ = 第i个训练数据，表示成一个n维的向量
$x^{(i)}_j$ = 第i个训练数据的第j个特征值
则预测函数可以表示为

h θ (x) = θ 0 + θ 1 x 1 + θ 2 x 2 + \cdot \cdot \cdot + θ n x n

$h_\theta(x) = \theta_0+ \theta_1x_1+\theta_2x2+\cdot\cdot\cdot+\theta_nx_n$
方便起见，定义

x0=1 $x_0=1$ ，则

X = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ x 0 x 1 x 2 \cdot x n ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ \in R n + 1 θ = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ θ 0 θ 1 θ 2 \cdot θ n ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ \in R n + 1

$X=\left(\begin{matrix}x_0\\x_1\\x_2\\ \cdot \\x_n\end{matrix}\right) \in \mathbb{R}^{n+1} \ \ \ \ \ \ \ \ \ \ \ \ \theta=\left(\begin{matrix}\theta_0\\\theta_1\\\theta_2\\ \cdot \\\theta_n\end{matrix}\right) \in \mathbb{R}^{n+1}$
此时，预测函数可写作

h θ (x) = θ T X

$h_\theta(x)=\theta^TX$
代价函数cost function记做

J (θ) = = = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2 1 2 m \sum i = 1 m (θ T x (i) - y (i)) 2 1 2 m \sum i = 1 m (\sum j = 0 n θ j x (i) j - y (i)) 2

$\begin{eqnarray*} J(\theta) &=& \dfrac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)}) - y^{(i)})^2 \\ &=&\dfrac{1}{2m}\sum_{i=1}^m(\theta^Tx^{(i)} - y^{(i)})^2 \\ &=&\dfrac{1}{2m}\sum_{i=1}^m(\sum_{j=0}^n \theta_jx_j^{(i)}- y^{(i)})^2 \end{eqnarray*}$
则此时的梯度下降（Gradient descent）算法更新为

Repeat{ $Repeat \quad \lbrace$

θj:=θj−α∂∂θjJ(θ)=θj−α1m∑mi=1(hθ(x(i))−y(i))x(i)j when n≥0 $\theta_j := \theta_j - \alpha\dfrac{\partial}{\partial\theta_j}J(\theta) = \theta_j - \alpha\dfrac{1}{m}\sum_{i=1}^m( h_\theta(x^{(i)}) - y^{(i)})x_j^{(i)} \ \ \ when\ n\geq0$

} $\rbrace$
或者直接写成向量的形式：

θ:=θ−α1m∑mi=0(hθ(x(i))−yi)x(i)∈Rn+1 $\theta := \theta - \alpha \frac{1}{m}\sum_{i=0}^m(h_\theta(x^{(i)}) - y^{i})x^{(i)} \in \mathbb{R}^{n+1}$
注：当上式可以写成 $\theta:= f(\alpha)\theta = (1-g(\alpha))\theta$ 的形式时，通常要求 $0 < f(\alpha) < 1/2$ 时的 $\alpha$ 是比较合适的，它不会有振荡
特征缩放 Feature Scaling
当特征值的量级相差很大时（如房子尺寸与居室数目），代价函数的轮廓图会变成瘦长的椭圆形，导致梯度下降算法运行十分缓慢（来回振荡）。在这种情况下，一种有效的方法就行进行特征缩放，如将特征量的取值范围控制在

[0,1] $[0, 1]$ ，通常情况下，控制每个参数在大约

[−1,1] $[-1, 1]$ 的范围内。

x j : = x j - μ j s j \in [- 1, 1]

$x_j := \frac{x_j-\mu_j}{s_j} \in [-1, 1]$
其中，

μj $\mu_j$ 可以理解为平均值或取值范围的中间值，

sj $s_j$ 为该特征量的取值范围大小。
学习速率 Learning Rate
一个典型的收敛判别是一次迭代的差值小于

10−3 $10^{-3}$ ，实际上，选取一个这样的阈值是很困难的。
在选取学习速率

α $\alpha$ ，通常选取一个较小的

α $\alpha$ ，然后3倍增加，如
…. 0.001， 0.003， 0.01， 0.03， 0.1， 0.3， 1， ….

特征和多项式回归（Polynomial regression）

正规方程（Normal Equation）

其提供了一种求 $\theta$ 的解析方法，相比于使用迭代的方法，可以一次性求解 $\theta$ 的最优值。
在最小化 $J(\theta)$ 过程中，一种数学方式是使 $\frac{\partial}{\partial\theta_j}J(\theta)=0$
$\theta = (X^TX)^{-1}X^Ty$ ，其中 $X_{m\times(n+1)},\ y_{m\times1}$
对于m个训练数据，n个特征的情况

x (i) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x (i) 0 x (i) 1 x (i) 2 \cdot \cdot x (i) n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ \in R n + 1 X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ - - (x (1)) T - - - - (x (2)) T - - - - (x (3)) T - - \cdot \cdot - - (x (m)) T - - ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ y (1) y (2) y (3) \cdot \cdot y (m) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$x^{(i)}=\left[ \begin{matrix} x_0^{(i)} \\ x_1^{(i)} \\ x_2^{(i)} \\ \cdot \\ \cdot \\x_n^{(i)}\end{matrix} \right] \in \mathbb{R}^{n+1}\ \ \ \ \ \ \ \ X=\left[ \begin{matrix} --(x^{(1)})^T-- \\ --(x^{(2)})^T-- \\ --(x^{(3)})^T-- \\ \cdot \\ \cdot \\ --(x^{(m)})^T-- \end{matrix} \right] \ \ \ \ \ \ \ \ y=\left[ \begin{matrix} y^{(1)}\\ y^{(2)} \\ y^{(3)} \\ \cdot \\ \cdot \\ y^{(m)} \end{matrix} \right]$
构造完

X和y $X 和 y$ 后，就可以使用上面的公式计算

θ $\theta$ 了。
使用这里的

X和y $X 和 y$ ，也可以用来计算代价函数：

J(θ)=12m(Xθ−y)T(Xθ−y) $J(\theta)=\frac{1}{2m}(X\theta-y)^T(X\theta-y)$
使用正规方法时，可以不对特征量进行归一化

Gradient Descent	Normal Equation
需要选择参数 $\alpha$	不需要选择参数
需要很多次迭代	不需要迭代
适合n比较大的情况	需要进行矩阵运算，不适合b比较大的情况

特征量小于1w时，通常可使用正规方法，大于1w时，使用梯度下降方法
-正规方程不可逆-
不可逆的情况很少见，在octava中，有两个函数pinv() 和 inv() 用来求逆。
不可逆的常见两种原因：
1 冗余特征：如房间的平方英尺和平方米。
2 太多特征：例如m

分类问题

逻辑回归算法

逻辑回归算法的输出值满足： $0\leq h_\theta \leq 1$ ，实质上是一个分类算法。

h θ (x) = g (θ T x), g (z) = 1 1 + e - z

$h_\theta(x) = g(\theta^Tx), \ \ \ g(z) = \frac{1}{1+e^{-z}}$
g(z)称为S型函数（sigmoid function）或逻辑函数（logistic function），即

h θ (x) = 1 1 + e - θ T x

$h_\theta(x) = \frac{1}{1+e^{-\theta^Tx}}$
解释：

hθ(x) $h_\theta(x)$ =对于新输入样本x，y=1的概率。即

hθ(x)=P(y=1 | x;θ) $h_\theta(x) = P(y=1\ |\ x; \theta)$
- 决策边界(decision boundary)-
当

z=θTx≥0 $z = \theta^Tx \geq 0$ 时，

g(z)≥0.5 $g(z) \geq 0.5$ ，即预测函数

hθ(x)≥0.5 $h_\theta(x) \geq 0.5$ ，对应的预测结果是1。
样本分界线称为决策边界
- 代价函数-
一般的，代价函数可写作：

J (θ) = 1 m \sum i = 1 m C o s t (h (i) θ - y (i))

$J(\theta) = \frac{1}{m} \sum_{i=1}^{m}Cost(h_\theta^{(i)} - y^{(i)})$
对于线性回归问题，有

Cost(hθ(x),y)=12(hθ(x)−y)2 $Cost(h_\theta(x) , y) = \frac{1}{2}(h_\theta(x)-y)^2$ ，由于

hθ(x) $h_\theta(x)$ 是线性的，所以代价函数是一个凸函数。但对于逻辑回归来说，

hθ(x) $h_\theta(x)$ 显然是非线性的，因此要寻找一个不同的代价函数，方方便我们使用相关算法找到最优解。即

C o s t (h θ (x), y) = {- l o g ( h θ ( x ) ) i f . y = 1 - l o g ( 1 - h θ ( x ) ) i f . y = 0

$Cost(h_\theta(x) , y) = \left\{ {-log(h_\theta(x)) \ \ if.\ y=1\atop -log(1-h_\theta(x)) \ \ if.\ y=0} \right.$
为了避免将代价函数写成两行，新的代价函数可以表示为

C o s t (h θ (x), y) = - y l o g (h θ (x)) - (1 - y) l o g (1 - h θ (x))

$Cost(h_\theta(x) , y) = -ylog(h_\theta(x)) - (1-y)log(1-h_\theta(x))$
亦即

J (θ) = - 1 m \sum i = 1 m [y (i) l o g (h θ (x (i))) + (1 - y (i)) l o g (1 - h θ (x (i)))]

$J(\theta) = -\frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)}log(h_\theta(x^{(i)})) + (1-y^{(i)}) log(1-h_\theta(x^{(i)}))\right]$
接下来，我们寻找合适的

θ $\theta$ ，使得

minθJ(θ) $min_\theta J(\theta)$ ，同样的

Repeat{ $Repeat \quad \lbrace$

} $\rbrace$

多类别分类问题

比如有k个类别，对应的分类y值为{1,2,3…k}。把每个y=i看做一个正类别，求出 $h^{(i)}_\theta(x)$ ，对于每个输入x做分类预测，选择满足 $max_i h^{(i)}_\theta(x)$ 的类别。

高级优化方法

过度拟合问题

解决过度拟合问题的常用方法
-减少特征数目-手动选择保留部分特征或使用模型选择算法

正则化

-线性回归的正则化-
通过在代价函数上加上对参数的惩罚项，在不需要减少参数数量的情况达到正则化的目的。
对线性回归问题，有

J (θ) = 1 2 m ⎡ ⎣ \sum i = 1 m (h θ (x (i)) - y (i)) 2 + λ \sum j = 1 n θ 2 j ⎤ ⎦

$J(\theta) = \frac{1}{2m}\left[ \sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^2 + \lambda \sum_{j=1}^{n}\theta_j^2 \right]$
对应的梯度下降计算

θ $\theta$ 的方法为：

Repeat{ $Repeat \quad\lbrace$

θ0:=θ0−α1m∑mi=1(hθ(x(i))−y(i))x(i)0 $\theta_0 := \theta_0 - \alpha \dfrac{1}{m} \sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)}) x_0^{(i)}$

θj:=θj−α[(1m∑mi=1(hθ(x(i))−y(i))x(i)j)+λmθj] $\theta_j := \theta_j- \alpha \left[ \left( \dfrac{1}{m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)}) x_j^{(i)}\right) + \dfrac{\lambda} {m} \theta_j \right]$

=θj(1−αλm)−α1m∑mi=1(hθ(x(i))−y(i))x(i)j $\ \ \ \ \ =\theta_j(1-\alpha\dfrac{\lambda}{m})-\alpha\dfrac{1}{m} \sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)}) x_j^{(i)}$

} $\rbrace$
可以看到，在前面一项中

1−αλm<1 $1-\alpha\frac{\lambda}{m} <1$ ，第二项和不适用正则化的梯度下降算法是相同的。
- 正规方程-
使用正则化之后的正规方程变为

θ=(XTX+λL)−1XTy $\theta = (X^TX+\lambda L)^{-1}X^Ty$
其中，L是一个

(n+1)×(n+1) $(n+1)\times(n+1)$ 的矩阵，且

L = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ 011 ⋱ 1 ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟

$L = \begin{pmatrix} 0 & & & & \\ & 1 & & & \\ & & 1 & & \\ & & & \ddots &\\ & & & & 1\\ \end{pmatrix}$
如果

m<n $m<n$ 的话，

XTX $X^TX$ 是不可逆的，但加上

λL $\lambda L$ 后，

XTX+λL $X^TX+\lambda L$ 是可逆的
- 逻辑回归的正则化-
使用正则化后的逻辑回归的代价函数写作

J (θ) = - 1 m \sum i = 1 m [y (i) l o g (h θ (x (i))) + (1 - y (i)) l o g (1 - h θ (x (i)))] + λ 2 m \sum j = 1 n θ 2 j

$J(\theta) = -\frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)}log(h_\theta(x^{(i)})) + (1-y^{(i)}) log(1-h_\theta(x^{(i)}))\right] + \frac{\lambda}{2m}\sum_{j=1}^{n}\theta_j^{2}$
同样的，我们需要分开计算

θ0 $\theta_0$ 和剩余的参数

Repeat{ $Repeat \quad \lbrace$

θ0:=θ0−α1m∑mi=0(hθ(x(i))−y(i))x(i)0 $\quad \theta_0 := \theta_0 - \alpha\dfrac{1}{m}\sum_{i=0}^{m}(h_\theta(x^{(i)})-y^{(i)}) x_0^{(i)}$

θj:=θj−α[(1m∑mi=1(hθ(x(i))−y(i))x(i)j+λmθj)]j∈{1,2⋯n} $\quad \theta_j := \theta_j - \alpha\left[ \left( \dfrac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)} + \dfrac{\lambda}{m}\theta_j \right)\right] \qquad j\in\lbrace 1,2\cdots n\rbrace$

} $\rbrace$