week2 多变量线性回归

最新推荐文章于 2022-10-05 10:24:47 发布

zy199336

最新推荐文章于 2022-10-05 10:24:47 发布

阅读量216

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/zy199336/article/details/74912613

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

3 多变量线性回归

3.1 多维特性 multiple features

至今为止，我们讨论的房价回归模型只有一个变量，面积，但实际情况往往不是如此，应有很多变量，例如卧室个数，几层等，我们把这些新的特征用 $x_1,x_2,...x_n$ 表示
$房间大小 210414161534852 卧室个数 5332 几层 1221 房龄 45403036 价格 460232315178$ $\begin{array}{cccc|c} 房间大小& 卧室个数 & 几层 & 房龄&价格 \\ \hline 2104 & 5 & 1 & 45&460 \\ 1416&3&2&40&232\\ 1534&3&2&30&315\\ 852&2&1&36&178\\ \end{array}$
加入新的特征以后，我们用下列新的标识：
$变量名 n x i x i j 变量代表意思特征数量第 i 个训练实例，包括多个特征，是一个向量，不再是一个数第 i 个训练实例的第 j 个特征，在特征矩阵中由第 i 行第 j 列标识$ $\begin{array}{cc} 变量名&变量代表意思\\ \hline n&特征数量\\ x^i&第i个训练实例，包括多个特征，是一个向量，不再是一个数\\ x_j^i&第i个训练实例的第j个特征，在特征矩阵中由第i行第j列标识\\ \end{array}$
此时，假设h表示为：
$h θ (x) = θ 0 x 0 + θ 1 x 1 + θ 2 x 2 + . . . + θ n x n$ $h_\theta(x)=\theta_0x_0+\theta_1x_1+\theta_2x_2+...+\theta_nx_n$
其中 $x_0$ 为1，是人为加入的，使式子能够统一
可以用矩阵表示来简化结果：
$h θ (x) = θ T X$ $h_\theta(x)=\theta^TX$
后面的 $\theta和X$ 都是矩阵， $\theta$ 是 $1\times (n+1)$ ，X是 $m\times (n+1)$ ( $x^i$ 是一维，X不是一维的)

3.2 多变量梯度下降

此时的代价函数J可以表示为：

J (θ 0, θ 1 . . . θ n) = 1 2 m \sum i = 1 m (h θ \cdot x i - y i) 2

$J(\theta_0,\theta_1...\theta_n)=\frac{1}{2m}\sum_{i=1}^m(h_\theta·x^i-y^i)^2$

同单变量的算法，此时的算法为：
循环直到收敛：

θ j = θ j - α \partial J ( θ 0 , θ 1 . . . θ n ) \partial θ j

$\theta_j=\theta_j-\alpha\frac{\partial J(\theta_0,\theta_1...\theta_n)}{\partial\theta_j}$

= θ j - α \partial \partial θ j 1 2 m \sum i = 1 m (h θ (x i) - y i) 2

$=\theta_j-\alpha\frac{\partial}{\partial\theta_j}\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^i)-y^i)^2$

= θ j - α 1 m \sum i = 1 m ((h θ (x i) - y i) \cdot x i j)

$=\theta_j-\alpha\frac{1}{m}\sum_{i=1}^m((h_\theta(x^i)-y^i)·x_j^i)$

3.3 特征缩放 feature scaling

当我们面对多维特征的时候，如果每个特征的单位尺度相差很大，那我们的算法也不能很好的收敛：

这时候，解决的方法很简单，将每个特征的尺度缩小到-1至1之间，既：

x n = X n - μ n S n

$x_n=\frac{X_n-\mu_n}{S_n}$ 其中

μn是平均值，Sn是标准差 $\mu_n是平均值，S_n是标准差$

3.4 学习率 learning rate

同单变量线性回归，我们要确保代价函数在一直减少，如果选取的 $\alpha$ 如果太大将有可能不会收敛，如果太小收敛太慢
$\alpha$ 可以选取0.001，0.3，0.1，0.3，1，3，10

4 多项式回归与常规解方程

4.1 多项式回归

线性回归并不适用所有的数据，例如有些数据需要的是曲线，
通常我们需要根据数据的特点选择回归方程，可能到二次方就结束，也可能需要开方

h θ (x) = θ 0 + θ 1 (x) + θ 2 x 2

$h_\theta(x)=\theta_0+\theta_1(x)+\theta_2x^2$
或是

h θ (x) = θ 0 + θ 1 (x) + θ 2 x \sqrt

$h_\theta(x)=\theta_0+\theta_1(x)+\theta_2\sqrt x$

4.2 常规解方程

有时候，可以不通过梯度下降来求得，可以根据解下面的方程来得到：

\partial \partial θ j J (θ j) = 0

$\frac{\partial}{\partial\theta_j}J(\theta_j)=0$
假设我们的训练集特征矩阵为X(包括

x0=1 $x_0=1$ )，训练结果为y，则

θ $\theta$ 的结果可以表示为：

θ = (X T X) - 1 X T y

$\theta=(X^TX)^{-1}X^Ty$
e.g
例如我们有：

房 间 大 小 210414161534852 卧 室 个 数 5332 几 层 1221 房 龄 45403036 价 格 460232315178

$\begin{array}{cccc|c} 房间大小& 卧室个数 & 几层 & 房龄&价格 \\ \hline 2104 & 5 & 1 & 45&460 \\ 1416&3&2&40&232\\ 1534&3&2&30&315\\ 852&2&1&36&178\\ \end{array}$
用常规解方法求解：

θ = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ 12104514511415324011534323018522136 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ \times ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ 11112104141615348525332122145403036 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ - 1 \times ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ 12104514511415324011534323018522136 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ \times ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ 460232315178 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$\theta=\left(\left[\begin{array}{cccc}1&1&1&1\\2104&1415&1534&852\\5&3&3&2\\1&2&2&1\\45&40&30&36\end{array}\right] \times \left[\begin{array}{ccccc}1&2104&5&1&45\\1&1416&3&2&40\\1&1534&3&2&30\\1&852&2&1&36\end{array}\right]\right)^{-1}\times \left[\begin{array}{cccc}1&1&1&1\\2104&1415&1534&852\\5&3&3&2\\1&2&2&1\\45&40&30&36\end{array}\right]\times \left[\begin{array} {c}460\\232\\315\\178\end{array}\right]$

对于那些不可逆的矩阵，或者n值过大的时候，正规解方程的方法不可用。
下表列举了梯度下降和正规解方程的比较

$梯度下降需要选择学习率 α 需要多次迭代特征数量 n 大时也能适用适用于各种类型模型正规解方程不需要选择一次可以算出 n 较大时计算时间太长只适用于线性模型$ $\begin{array}{c|c} 梯度下降& 正规解方程 \\ \hline 需要选择学习率\alpha&不需要选择\\ 需要多次迭代&一次可以算出\\ 特征数量n大时也能适用&n较大时计算时间太长\\ 适用于各种类型模型&只适用于线性模型 \end{array}$