AI:梯度下降法实现线性回归步骤

最新推荐文章于 2025-10-25 20:25:37 发布

xyzroundo

最新推荐文章于 2025-10-25 20:25:37 发布

阅读量880

点赞数 14

CC 4.0 BY-SA版权

分类专栏： AI 文章标签：人工智能线性回归机器学习 GD AI 梯度下降

本文链接：https://blog.csdn.net/xyzroundo/article/details/153754684

AI 专栏收录该内容

51 篇文章

订阅专栏

梯度下降算法是机器学习中用于优化模型参数的核心方法，尤其在求解线性回归这类问题时表现出色。下面我将详细解释它的工作原理、实现步骤，并通过一个具体例子帮助你直观理解。

💡 梯度下降算法基本原理

梯度下降法的核心思想类似于下山：如果你想快速到达山谷，最有效的方法是沿着最陡峭的方向向下走。在机器学习中，这个“山”就是损失函数（衡量模型预测值与真实值差异的函数），“下山方向”则是损失函数减小最快的方向，即梯度的反方向。

数学表达

对于一个线性回归模型 $y = w x + b$ ，常用均方误差（MSE）作为损失函数：
$\frac{1}{2m} \sum_{i=1}^{m} (h(x^{(i)}) - y^{(i)})^2$

其中：

$m$ 是样本数量
$h(x^{(i)}) = wx^{(i)} + b$ 是模型预测值
$y^{(i)}$ 是真实值

梯度下降通过以下公式迭代更新参数：
$wnew=wold−α⋅∂J(w,b)∂ww_{new} = w_{old} - \alpha \cdot \frac{\partial J(w, b)}{\partial w}$
$bnew=bold−α⋅∂J(w,b)∂bb_{new} = b_{old} - \alpha \cdot \frac{\partial J(w, b)}{\partial b}$

其中 $α\alpha$ 是学习率，控制参数更新的步长。

🔄 梯度下降法实现线性回归的步骤

1. 数据准备与初始化

首先，我们需要准备好训练数据（特征x和标签y），并初始化模型参数 $w$ 和 $b$ 。通常将它们设为0或小的随机值。

2. 计算梯度

计算损失函数对每个参数的偏导数。对于线性回归，这些偏导数为：
$∂J∂w=1m∑i=1m(h(x(i))−y(i))⋅x(i)\frac{\partial J}{\partial w} = \frac{1}{m} \sum_{i=1}^{m} (h(x^{(i)}) - y^{(i)}) \cdot x^{(i)}$
$∂J∂b=1m∑i=1m(h(x(i))−y(i))\frac{\partial J}{\partial b} = \frac{1}{m} \sum_{i=1}^{m} (h(x^{(i)}) - y^{(i)})$

梯度指示了损失函数增长最快的方向，因此我们沿着负梯度方向更新参数以减少损失。

3. 参数更新

使用计算得到的梯度更新参数：
$wnew=wold−α⋅∂J∂ww_{new} = w_{old} - \alpha \cdot \frac{\partial J}{\partial w}$
$bnew=bold−α⋅∂J∂bb_{new} = b_{old} - \alpha \cdot \frac{\partial J}{\partial b}$

4. 迭代优化

重复步骤2和3，直到损失函数收敛（变化很小）或达到预设的迭代次数。

📊 实例演示：汽车重量与油耗的线性回归

以下表格展示了梯度下降法在线性回归中的应用过程，我们使用一个简单的数据集来说明：

汽车重量（千磅）	每加仑英里数（标签）
3.5	18
3.69	15
3.44	18
3.43	16
4.34	15
4.42	14
2.37	24

梯度下降迭代过程

下表展示了梯度下降的迭代过程，包括参数更新和损失值的变化：

迭代次数	权重（w）	偏置（b）	损失（MSE）
1	0	0	303.71
2	1.2	0.34	170.67
3	2.75	0.59	67.3
4	3.17	0.72	50.63
5	3.47	0.82	42.1
6	3.68	0.9	37.74

从表中可以看出，随着迭代的进行，损失值逐渐减小，表明模型在不断改进。

下面的流程图展示了梯度下降法在线性回归中的完整工作流程：

⚙️ 关键参数与技巧

学习率的选择

学习率 $α\alpha$ 是梯度下降中最关键的超参数：

过大：可能导致参数在最小值附近震荡甚至发散
过小：收敛速度慢，训练时间长

实践中常使用学习率衰减策略，随着迭代进行逐渐减小学习率。

梯度下降的类型

根据计算梯度时使用的数据量不同，梯度下降主要有三种变体：

类型	更新方式	优点	缺点
批量梯度下降	使用整个数据集	收敛稳定	计算资源密集，速度慢
随机梯度下降	使用单个样本	训练速度快	收敛不稳定，波动大
小批量梯度下降	使用小批量样本	平衡稳定性与速度	需要调整批量大小

💻 代码实现示例

以下是使用Python和NumPy实现梯度下降法的简化代码：

import numpy as np

def gradient_descent_linear_regression(X, y, learning_rate=0.01, iterations=1000):
    """
    使用梯度下降法求解线性回归参数
    """
    m, n = X.shape
    X = np.c_[np.ones(m), X]  # 添加偏置项
    y = y.reshape(-1, 1)
    
    # 初始化参数
    theta = np.zeros((n+1, 1))
    
    # 存储损失历史
    loss_history = []
    
    for i in range(iterations):
        # 计算预测值
        y_pred = X.dot(theta)
        
        # 计算损失（MSE）
        loss = np.mean((y_pred - y)**2)
        loss_history.append(loss)
        
        # 计算梯度
        gradients = (2/m) * X.T.dot(y_pred - y)
        
        # 更新参数
        theta -= learning_rate * gradients
        
        # 每100次迭代打印损失
        if i % 100 == 0:
            print(f"Iteration {i}, Loss: {loss:.4f}")
    
    return theta, loss_history

# 示例使用
X = np.array([[1], [2], [3], [4]])  # 特征
y = np.array([3, 4, 5, 6])          # 标签

theta, losses = gradient_descent_linear_regression(X, y)
print(f"最优参数: w = {theta[1][0]:.3f}, b = {theta[0][0]:.3f}")