随机梯度下降简单实现

还记得刚开始看吴恩达老师的机器学习课程的时候,经常看不懂的就是梯度下降,随机梯度下降和批量梯度下降的区别老是看不明白。迷迷糊糊的,说不清楚吧,还知道大概是什么个意思;说清楚吧,具体怎么个计算细节也不了解。

今天以 y = 3 x + ϵ y = 3x +\epsilon y=3x+ϵ 曲线的回归作为数据集,这里 ϵ \epsilon ϵ 表示一个较小的误差。

数据集构造

数据集根据 y = 3 x y=3x y=3x 构造,并加一定的随机数构造出数据集

## 使用jupyter notebook完成
LEN = 50
X = np.arange(0, LEN)

# rand从-5到+5
np.random.seed(1)
rand = (np.random.random(LEN) * 2 - 1) * 5
Y = X * 3 + rand

# X、Y分布如下图所示
plt.scatter(X, Y)

# X、Y 连接
X = X.reshape(LEN, 1)
Y = Y.reshape(LEN, 1)
allData = np.concatenate((X, Y), axis = 1)

dataDistribution

划分训练集、测试机

np.random.shuffle(allData)
# 训练集:测试机 = 4:1
ratio = 0.8
index = (int)(allData.shape[0] * ratio)
trainData = allData[:index]
testData = allData[index:]

算法实现

SGD

超参数设置

# 超参数设置
# 学习率
lr = 0.0005
# 训练集大小(每个batch随机梯度下降迭代次数)
N = trainData.shape[0]
# 误差大小
epsilon = 200

模型训练

# 待估及参数(theta)
theta = np.random.rand()
# 迭代次数标识
iter = 1
# 参数记录列表,包括loss、迭代次数以及theta
loss_list = []
iter_list = []
theta_list = []
loss = np.inf
while True:
	# 打乱训练集词序
    np.random.shuffle(trainData)
    for i in range(N):
        # 随机样本
        x = trainData[i, 0]
        y = trainData[i, 1]
        # 计算梯度
        grad = (theta * x - y) * x
        # 更新参数
        theta = theta - lr * grad
        # print("x: %.2f\t\t y:%.2f\t\t\tgrad: %.4f\t\t\ttheta: %.4f" % (x, y, grad, theta))
    # 一个batch结束后,对所有测试样本进行loss求和
    loss = np.sum(0.5 * (trainData[:, 0] * theta - trainData[:, 1]) ** 2)
    theta_list.append(theta)
    loss_list.append(loss)
    iter_list.append(iter)
    print("No.%d:\t grad = %f\t theta: %f\tloss: %f" %(iter, grad, theta, loss))
    iter += 1
    # 达到允许的误差,结束训练
    if loss < epsilon:
        print("Traing Completed!")
        break

训练结果

迭代参数变化

result

结果展示

theta
loss

结果分析

可以看到由于随机梯度下降每次在参数的迭代过程中参考的只有一个样本,样本的分布不均匀就会导致参数收敛较慢,虽然这样可以避免陷入局部极小值,但是在调参的过程中,学习率lr(learning rate)稍微调大一点,theta就会变得无穷大,导致学习过程无法收敛的结果。

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
随机梯度下降是一种优化算法,用于求解目标函数的最小值。它的主要特点是在每一轮迭代中更新参数时只考虑一个样本的梯度,而不是全部样本的梯度。这样可以加快收敛速度,尤其是在大规模数据集上。下面是随机梯度下降的Matlab实现: 首先,定义目标函数和初始参数。假设目标函数为J(w),参数为w,初始参数为w0。 然后,对于每一轮迭代,随机选择一个样本x和对应的标签y。计算目标函数对参数的梯度,即∂J(w)/∂w,并更新参数。更新参数的方式可以用梯度下降的方式,即w = w - learning_rate * ∂J(w)/∂w。 重复上述步骤,直到满足停止条件,如达到最大迭代次数或目标函数的变化很小。 具体的Matlab实现如下: ```matlab % 定义目标函数 function J = objective_function(w) % 根据实际情况定义目标函数,比如最小二乘法的损失函数 J = sum((y - X*w).^2); end % 初始化参数 w0 = zeros(size(X, 2), 1); % 假设X为输入数据,每行为一个样本 learning_rate = 0.01; % 学习率 max_iterations = 100; % 最大迭代次数 epsilon = 1e-6; % 目标函数的变化阈值 % 迭代更新参数 w = w0; for iter = 1:max_iterations % 随机选择一个样本 index = randi(size(X, 1)); x = X(index, :); % x为样本的特征向量 y = Y(index); % y为样本的标签 % 计算梯度 gradient = 2 * (x' * (x*w - y)); % 更新参数 w = w - learning_rate * gradient; % 判断是否收敛 J_prev = objective_function(w0); J = objective_function(w); if abs(J - J_prev) < epsilon break; end end % 输出最终的参数 final_w = w; ``` 以上是随机梯度下降的Matlab实现。需要注意的是,这只是一个简单的示例,实际应用中可能需要根据具体的问题进行适当的修改和调整。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值