监督学习-线性回归（数学建模）

最新推荐文章于 2024-03-28 15:53:55 发布

热带鱼啊

最新推荐文章于 2024-03-28 15:53:55 发布

阅读量828

点赞数 3

分类专栏： MATLAB与数学建模文章标签：机器学习算法线性代数数学建模

本文链接：https://blog.csdn.net/weixin_45840825/article/details/117196539

版权

MATLAB与数学建模专栏收录该内容

15 篇文章 53 订阅

订阅专栏

这是在学习吴恩达的机器学习课程时，一些随笔。

课程地址在 coursera ML

文章目录

监督学习 VS 无监督学习

简单来说：

监督学习：我们有一组数据集，并且已经知道了正确的 output，以及 input 和 output 之间的关系。我们期望根据已有的数据确定一个 input 到 output 的映射关系 ( $\longrightarrow f(x)$ ) ，从而对一组新的 input 求出 output。
监督学习通常分为“回归”和“分类”问题。
无监督学习：有时候我们只有一组数据，而不知道这一组数据任何对应的 output。这时候我们期望通过无监督学习从数据中获取一些特征，并根据这些特征对数据分类。无监督学习通常为“聚类”问题。

Cost function

在回归模型中，可以通过代价函数来衡量拟合的优度。

对一组数据集，如果选取函数 $h_\theta(x)=\theta_0+\theta_1x$ 来拟合，那么对于选取的每一组 $\theta_1, \theta_2$ ，其对应的代价函数形如：
$J\left(\theta_{0}, \theta_{1}\right)=\frac{1}{2 m} \sum_{i=1}^{m}\left(\hat{y}_{i}-y_{i}\right)^{2}=\frac{1}{2 m} \sum_{i=1}^{m}\left(h_{\theta}\left(x_{i}\right)-y_{i}\right)^{2}$
即每一个 input $x_i$ 的拟合值 $h_0(x_i)$ 和实际值 output $y_i$ 差的平方和再除以样本点的两倍 $2 m$ 。（可以抽象为平均距离，样本点和拟合点的距离越小，则拟合得越好）

我们的目的是选取一组适当的 $\theta_1, \theta_2$ 以使成本函数值最小，即达到最优拟合优度。

梯度下降

该怎样求得这样一组“适当的 $\theta_1, \theta_2$ ” 呢？梯度下降算法给出了一个不错的解决方案。

梯度下降为了求解出成本函数 $J\left(\theta_{0}, \theta_{1}\right)$ 关于 $\theta_1, \theta_2$ 的最小值，是这样的做的：

先从随机选取的一个初始点 ( $\theta_1, \theta_2$ ) 开始；
在当前位置环顾四周，找到一个坡度最陡的下坡方向；
往这个下坡方向下降一定距离，到达一个新的位置；
重复第二步迭代，直到收敛（到达谷底）。

每次下降的最陡方向即为成本函数的导数，下降的步伐由学习率 $\alpha$ 决定。梯度下降以该式更新 $\theta$ ，直到收敛：（方向导数即是函数值沿该方向变化的最大速度，参见微积分-梯度）
$\theta_{j}:=\theta_{j}-\alpha \frac{\partial}{\partial \theta_{j}} J\left(\theta_{0}, \theta_{1}\right)$
这个“下降”是 $\theta_1$ 和 $\theta_2$ 两个方向下降的矢量和（类比“力的合成”），并且每次迭代都应该同时更新 $j = 0, 1$ 的 $\theta$ 值。

梯度下降算法总能正确地工作，以 $\theta_1$ 方向的分量来说明这件事：（注意学习率 $\alpha$ 的值应该总取正值）

若 $\frac{\partial}{\partial \theta_{1}} J\left(\theta_{0}, \theta_{1}\right)$ 为正，则 $\theta$ 将减去一个正数从而更加靠近斜率为 0 的点（收敛点）；图中上部分
若 $\frac{\partial}{\partial \theta_{1}} J\left(\theta_{0}, \theta_{1}\right)$ 为负，则 $\theta$ 将减去一个负数从而更加靠近斜率为 0 的点；图中下部分
而且非常巧妙的在于，随着越来越靠近收敛点，该方向的曲线斜率越来越小，这也就意味着该方向的方向导数 $\frac{\partial}{\partial \theta_{1}} J\left(\theta_{0}, \theta_{1}\right)$ 越来也小，从而使下降的步伐越来越小，避免跨过收敛点导致无法收敛（前提是选取了适当的学习率 $\alpha$ ）

梯度下降的完整算法形如：

当梯度下降用于线性回归时，求偏导后可得出新的形式：

你可能注意到了，梯度下降只能找到局部最小值。因此如果问题只有一个全局最优解，那么总能找到这个解；而若有多个局部最优解时，则可能需要选取多个不同的起始点多次梯度下降。

学习率 $\alpha$

为了使梯度下降良好地工作，我们需要选取一个合适的学习率 $\alpha$ 。它不应该太大（这可能导致 $J(\theta)$ 并不在每一次迭代后减少，甚至可能导致无法收敛），也不应该太小（这将导致收敛的很慢）。

为了检验我们选取的 $\alpha$ 值是否合适，可以观察 $\theta$ 值对应的最小成本函数 $J(\theta)$ 是否随着迭代的次数而变小：

多元梯度下降

当 input 数据有多个属性时，拟合函数形如：
$h_{\theta}(x)=\theta^{T}x=\theta_{0}+\theta_{1} x_{1}+\theta_{2} x_{2}+\theta_{3} x_{3}+\cdots+\theta_{n} x_{n}$
成本函数和梯度下降和一元类似，使用向量表示更为贴切：

同样的将成本函数 $J(\theta)$ 分别对 $\theta_j$ 求偏导（方向导数），即可得到线性回归特有形式的梯度下降通式：
$\theta_{j}:=\theta_{j}-\alpha \frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) \cdot x_{j}^{(i)} \qquad \text { for } \mathrm{j}:=0 \ldots \mathrm{n}$
如你所见，对每一个 $\theta_j$ 求偏导得到的是一个固定形式的表达式，它只跟 $x_j$ 有关。事实上在一元梯度下降中也是如此，只不过由于 $x_0$ 是一个常量 1 而省略了 $x_0$ 。下面是一元梯度下降和多元梯度下降的对比：

特征缩放和均值归一化

在进行多元梯度下降时，若不同属性之间的数量级相差非常大，将导致迭代次数非常多，收敛的非常慢。为了避免这样的问题，在进行多元梯度下降时非常有必要进行特征缩放。

缩放的方法有很多种，只要最终所有的数据都控制在一个较小范围内即可，这个范围通常没有绝对的要求，只要不是太小或者太大均可。

特征缩放：用输入值除以输入变量的范围（即最大值减去最小值），结果的范围是 $-1\sim1$ ；
均值归一化：将输入值减去平均值后再除以输入变量的范围，结果是的范围近似是 $\sim 0.5$

特征和线性拟合

Normal Equation 正规方程

还记得我们的成本函数吗？
$J\left(\theta_{0}, \theta_{1}\right)=\frac{1}{2 m} \sum_{i=1}^{m}\left(\hat{y}_{i}-y_{i}\right)^{2}=\frac{1}{2 m} \sum_{i=1}^{m}\left(h_{\theta}\left(x_{i}\right)-y_{i}\right)^{2}$
我们拟合的目的就是选取一组合适的 $\theta_1,\theta_2$ 使得 $J(\theta_1,\theta_2)$ 函数值最小。梯度下降给出了一套直观的解法，即不断（有规律）地尝试不同的 $\theta_1,\theta_2$ ，直到找到最合适的那一组。

等等，函数值最小？那不就是导数值为 0 吗？因此，正规方程解法将 “求成本函数值最小对应的 $\theta$ ” 转换为求 “成本函数导数值为 0 对应的 $\theta$ ” ，如果是多元函数，则是对每一个 $\theta_j$ 的偏导数值为 0：

如果拟合函数为 $h_{\theta}(x)=\theta^{T}x=\theta_{0}x_0+\theta_{1} x_{1}+\theta_{2} x_{2}+\theta_{3} x_{3}+\cdots+\theta_{n} x_{m}$ ，将 input 数据集对应到 $X$ ，output 数据集对应到 $y$ ，则总可以这样求得最优的 $\theta$ ：
$\theta=\left(X^{T} X\right)^{-1} X^{T} y$
这是一个 $m = 4$ 时的例子（注意 input 数据集和 output 数据集到 $X, y$ 的对应，这个例子中 $\theta_0x_0$ 是一个常数项，因此 $x_0$ 的输入是一个恒定值 1）：

具体到利用 MATLAB 计算只有简单的一条命令：

% X' - 转置
% pinv(X) - 对 X 求伪逆
% 总可以通过该式求得正确的 theta，即使矩阵 X 不可逆
theta = pinv(X'*X)*(X')*y

% X\Y - 对 X 求逆后与 Y 相乘，因此也可以这样做：
theta = (X'*X)\(X')*y

使用正规方程解法求 $\theta$ 将不用考虑 input 数据集之间的数量级，直接计算就好，不再需要特征缩放。

梯度下降 VS Normal Equation

看上去正规方程解法似乎比梯度下降简单的多也实用的多，只有当 input 数据集的属性 n 非常大时可能才需要考虑使用梯度下降。事实也是这样的，在一般的回归问题中，特征方程已经够用了。但这并不意味着学习的梯度下降是徒劳，在后面即将看到的很多其他问题还将不得不用到梯度下降。

数学建模中的回归问题

在回归问题中通常并不使用梯度下降法求解 $\theta$ ，而使用正规方程解法。但可能有些术语上的出入：

一般把 Cost Function 称之为”均方误差“，对应了最常见的欧几里得距离或简称”欧氏距离“；
基于均方误差最小化来求解待定系数 $\theta$ 的方法称之为”最小二乘法“；
最小二乘法的求解过程称为回归模型的最小二乘“参数估计”（求解过程与正规方程解法一致）；

在回归问题中，最小二乘法就是试图找到一条曲线（或直线），使所有样本点到曲线上的欧氏距离之和最小。

完整的最小二乘法拟合参见司守奎的*《数学建模算法与应用》第二版* 92 页：

关于 MATLB 拟合函数、工具箱的使用参见另一篇笔记 MATLAB数学建模回归与内插

编程练习 ex1

computeCost.m

function J = computeCost(X, y, theta)
%COMPUTECOST Compute cost for linear regression
%   J = COMPUTECOST(X, y, theta) computes the cost of using theta as the
%   parameter for linear regression to fit the data points in X and y

% Initialize some useful values
m = length(y); % number of training examples

% You need to return the following variables correctly 
J = 0;

% ====================== YOUR CODE HERE ======================
% Instructions: Compute the cost of a particular choice of theta
%               You should set J to the cost.
y_fit = X * theta;
J = sum((y-y_fit).^2) / (2*length(y));
% =========================================================================
end

gradientDescent.m

function [theta, J_history] = gradientDescent(X, y, theta, alpha, num_iters)
%GRADIENTDESCENT Performs gradient descent to learn theta
%   theta = GRADIENTDESCENT(X, y, theta, alpha, num_iters) updates theta by 
%   taking num_iters gradient steps with learning rate alpha

% Initialize some useful values
m = length(y); % number of training examples
J_history = zeros(num_iters, 1);

temp = zeros(size(theta));
mmin = computeCost(X, y, theta);

for iter = 1:num_iters
    % ====================== YOUR CODE HERE ======================
    % Instructions: Perform a single gradient step on the parameter vector
    %               theta. 
    %
    % Hint: While debugging, it can be useful to print out the values
    %       of the cost function (computeCost) and gradient here.
    %
    
    thetatemp=theta; % 要同时更新所有 theta，因此用一个中间值记录下
    for j=1:length(theta)
        theta(j) = theta(j) - alpha / m * sum( (X*thetatemp-y) .* X(:,j) );
    end
    
    % ============================================================

    % Save the cost J in every iteration    
    J_history(iter) = computeCost(X, y, theta);

    if(J_history(iter)<mmin) % 如果当前 cost function 值更小，则更新 theta
        mmin=J_history(iter);
        temp=theta;
    end
end

theta=temp;
end

热带鱼啊

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
4
评论
监督学习-线性回归（数学建模）

这是在学习吴恩达的机器学习课程时，一些随笔。课程地址在 coursera ML文章目录监督学习 VS 无监督学习Cost function梯度下降学习率 α\alphaα多元梯度下降特征缩放和均值归一化特征和线性拟合Normal Equation 正规方程梯度下降 VS Normal Equation数学建模中的回归问题监督学习 VS 无监督学习简单来说：监督学习：我们有一组数据集，并且已经知道了正确的 output，以及 input 和 output 之间的关系。我们期望根据已有的数据确定一个
复制链接

扫一扫