tensorflow中SGDM优化器用法

tensorflow中SGDM优化器用法

每一时刻的一阶动量mt都有上一时刻的一阶动量m(t-1)和当前的梯度gt决定 

 实现代码:

#SGDM

beta = 0.9 #引入权重,是个超参数,经验值是0.9

m_w = beta * m_w + (1 - beta) * grads[0] #一阶动量加上权重beta,二阶动量加上权重(1 - beta),grads[0]是loss对w1的偏导

m_b = beta * m_b + (1 - beta) * grads[1] #一阶动量加上权重beta,二阶动量加上权重(1 - beta),grads[1]是loss对b1的偏导

w1.assign_sub(learning_rate * m_w) #进行参数w1更新

b1.assign_sub(learning_rate * m_b) #进行参数b1更新

 SGDM优化器实现iris数据集分类: 

#导入模块
import tensorflow as tf #导入tensorflow模块

from sklearn import datasets #导入sklearn中的datasets模块,方便下载内置的iris数据集

from matplotlib import pyplot as plt #导入matplotlib中的pyplot,待会画图

import numpy as np #导入numpy模块做数学运算

import time #导入时间模块,用来计时

#导入数据
x_data = datasets.load_iris().data #导入iris数据集的特征

y_data = datasets.load_iris().target #导入iris数据集的标签

#随机打乱顺序,使训练更具准确性
np.random.seed(120)#调用numpy中的random方法里的seed方法,赋值120,使输入特征和标签能够一一对应

np.random.shuffle(x_data) #调用numpy中的random方法里的shuffle方法,将训练集x_data里的特征值乱序

np.random.seed(120)#调用numpy中的random方法里的seed方法,赋值120,使输入特征和标签能够一一对应

np.random.shuffle(y_data) #调用numpy中的random方法里的shuffle方法,将测试集y_data里的标签乱序

tf.random.set_seed(120)#调用tensorflow中的random方法里的set_seed方法,赋值120

#划分数据集
x_train = x_data[:-30] #将iris数据集(特征,共150行,此时已打乱)前120行作为训练集x_train

y_train = y_data[:-30] #将iris数据集(标签,共150行,此时已打乱)前120行作为训练集y_train

x_test = x_data[-30:] #将iris数据集(特征,共150行,此时已打乱)最后30行作为测试集x_test

y_test = y_data[-30:] #将iris数据集(标签,共150行,此时已打乱)最后30行作为测试集y_test

#转换特征值的数据类型,使之与后面数据运算时数据类型一致
x_train = tf.cast(x_train, dtype = tf.float32) #调用tensorflow中的cast方法,将x_train中的特征值类型转换为float32

x_test = tf.cast(x_test, dtype = tf.float32) #调用tensorflow中的cast方法,将x_test中的特征值类型转换为float32

#用from_tensor_slices方法将特征值和标签值配对
train_data_batch = tf.data.Dataset.from_tensor_slices((x_train, y_train)).batch(32)#将训练集的特征x_train和标签y_train配对,用batch方法将120个训练数据分成32个为一组的批次

test_data_batch = tf.data.Dataset.from_tensor_slices((x_test, y_test)).batch(32)#将测试集的特征x_test和标签y_test配对,用batch方法将30个训练数据分成32个为一组的批次

#用truncated_normal方法构建神经网络,并用Variable方法标记可训练数据
w1 = tf.Variable(tf.random.truncated_normal([4, 3], stddev = 0.1, seed = 1))#用truncated_normal方法,构建4个输入特征,3个分类的神经网络结构,标准差为0.1的正态分布,随机种子为1

b1 = tf.Variable(tf.random.truncated_normal([3], stddev = 0.1, seed = 1))#用truncated_normal方法,因为b1和w1的分类维度要一样,所以是3,标准差为0.1的正态分布,随机种子为1

#设置变量
learnRate = 0.1 #学习率为0.1

train_loss_results = [] #将每轮的loss记录在此列表中,为后面画loss曲线时提供数据

test_accuracy = [] #将每轮的精度accuracy记录在此列表中,为后面画精度accuracy曲线提供数据

epoch = 500 #循环500轮

loss_all = 0 #每轮分4个step,loss_all记录4个step生成的4个loss的和

#############################################################
#SGDM优化器参数设置
m_w, m_b = 0, 0 #初始化一阶动量m_w, m_b为0

beta = 0.9 #设置超参数为0.9
#############################################################

#训练部分
now_time = time.time() #用时间戳记录训练起始时间now_time

for epoch in range(epoch): #遍历数据集,每个epoch循环一次数据集
    for step, (x_train, y_train) in enumerate(train_data_batch): #遍历batch,每个step循环一次batch
        with tf.GradientTape() as tape: #用上下文管理器记录梯度信息
            y = tf.matmul(x_train, w1) + b1 #神经网络乘加运算,用tensorflow中的matmul方法将训练特征值x_train和w1参数进行矩阵相乘
            y = tf.nn.softmax(y) #用tensorflow中的softmax方法将神经网络乘加运算后得到的输出符合正态分布,输出和为1,可以在之后用来与独热码相减求loss
            y_one_hot = tf.one_hot(y_train, depth = 3) #用tensorflow中的one_hot方法将训练标签y_train转换为独热码格式,因为y输出为3,所以深度为3,方便接下来计算loss的和
            loss = tf.reduce_mean(tf.square(y_one_hot - y)) #用tensorflow中的reduce_mean方法求平均值,用tensorflow中的square方法求平方,这里用均方误差求损失函数loss
            loss_all += loss.numpy() #将每个step计算出的loss累加,后面可以用来求loss平均值,

        #计算loss对各个参数的梯度
        loss_gradient = tape.gradient(loss, [w1, b1])#用tensorflow中的GradientTape方法中的gradient方法求loss对各个参数w1,b1的梯度gradient

        #############################################################
        #SGDM优化器,进行梯度更新
        m_w = beta * m_w + (1 - beta) * loss_gradient[0] #求一阶动量m_w
        m_b = beta * m_b + (1 - beta) * loss_gradient[1] #求一阶动量m_b
        w1.assign_sub(learnRate * m_w) #对参数w1进行更新
        b1.assign_sub(learnRate * m_b) #对参数b1进行更新
        #############################################################

        #############################################################

        # 梯度更新,使用了SGD(无monentum)优化器
        # w1.assign_sub(
        #     learnRate * loss_gradient[0])  # 用assign_sub方法进行自减,实现参数w1的自动更新,等价于w1 = w1 - learn_Rate * loss_gradient[0]
        # b1.assign_sub(
        #     learnRate * loss_gradient[1])  # 用assign_sub方法进行自减,实现参数b1的自动更新,等价于b = b - learn_Rate * loss_gradient[1]

        #############################################################


    # 每个epoch,打印loss信息
    print("epoch: {}, loss: {}".format(epoch,loss_all / 4))  # 每个epoch,打印loss信息,有4个step,所以总loss_all要除以4,求得每次step的平均loss
    train_loss_results.append(loss_all / 4)  # 用append方法将4个step的loss求平均值记录在train_loss_results中
    loss_all = 0  # loss_all归零,为下一个epoch的求loss做准备

    # 测试部分
    total_correct = 0  # total_correct为预测对的样本个数,初始化为0
    total_test_number = 0  # total_number为测试的总样本数,初始化为0

    for x_test, y_test in test_data_batch:  # 遍历训练集的特征值和标签值
        # 用更新后的参数进行预测
        y = tf.matmul(x_test, w1) + b1  # 用tensorflow中的matmul方法来进行乘加运算,再加上b1得到前向传播的结果
        y = tf.nn.softmax(y)  # 用tensorflow中的softmax方法将神经网络乘加运算后得到的前向传播的结果符合正态分布,输出和为1,可以在之后用来与独热码相减求loss
        predict = tf.argmax(y, axis=1)  # 用tensorflow中的argmax方法,返回y中最大值的索引,即预测的标签分类,axis表示按列求值
        predict = tf.cast(predict, dtype=y_test.dtype)  # 将predict的类型转换为测试集标签y_test的数据类型
        correct = tf.cast(tf.equal(predict, y_test),
                          dtype=tf.int32)  # 用tensorflow中的equal方法判断,若分类正确,则值为1,否则为0,并用tensorflow中的cast方法将bool类型转化为int32类型
        correct = tf.reduce_sum(correct)  # 用tensorflow中的reduce_sum方法将每个batch的correct数加起来
        total_correct += int(correct)  # 将所有batch中的correct数转化为int类型,并加起来
        total_test_number += x_test.shape[0]  # 用shape方法返回测试集特征x_test的行数,也就是测试的总样本数

    accuracy = total_correct / total_test_number  # 总的准确率
    test_accuracy.append(accuracy)  # 测试集的准确率添加到列表中来,方便记录
    print("test_accuracy:", accuracy)  # 打印测试集精度准确率
    print("-------------------------------------------------")  # 为每个epoch进行分隔,方便查看

total_time = time.time() - now_time #用时间戳记录总训练时间total_time

print("total_time:", total_time) #打印总训练时间total_time

# 绘制loss曲线
plt.title('Loss Function Curve')  # 用matplotlib中的title方法标出图片标题
plt.xlabel("Epoch")  # 用matplotlib中的xlabel方法标出x轴变量名称
plt.ylabel("Loss")  # 用matplotlib中的ylabel方法标出y轴变量名称
plt.plot(train_loss_results, label="$Loss$")  # 用matplotlib中的plot方法逐点画出训练集损失值结果train_loss_results值并连线,连线的标签为Loss
plt.legend()  # 用matplotlib中的legend方法画出曲线图标
plt.show()  # 用matplotlib中的show方法画出图像

# 绘制accuracy曲线
plt.title("Accuracy Curve")  # 用matplotlib中的title方法标出图片标题
plt.xlabel("Epoch")  # 用matplotlib中的xlabel方法标出x轴变量名称
plt.ylabel("Accuracy")  # 用matplotlib中的ylabel方法标出y轴变量名称
plt.plot(test_accuracy, label="$Accuracy$")  ##用matplotlib中的plot方法逐点画出测试集精准度test_accuracy值并连线,连线的标签为Accuracy
plt.legend()  # 用matplotlib中的legend方法画出曲线图标
plt.show()  # 用matplotlib中的show方法画出图像




结果为:

E:\Anaconda3\envs\TF2\python.exe C:/Users/Administrator/PycharmProjects/untitled8/iris数据集分类.py
epoch: 0, loss: 0.2615494392812252
test_accuracy: 0.36666666666666664
-------------------------------------------------
epoch: 1, loss: 0.23972466960549355
test_accuracy: 0.36666666666666664
-------------------------------------------------
epoch: 2, loss: 0.21850135177373886
test_accuracy: 0.6333333333333333
-------------------------------------------------
epoch: 3, loss: 0.20047356560826302
test_accuracy: 0.3333333333333333
-------------------------------------------------
省略................................


epoch: 497, loss: 0.027640254935249686
test_accuracy: 0.9666666666666667
-------------------------------------------------
epoch: 498, loss: 0.027614075923338532
test_accuracy: 0.9666666666666667
-------------------------------------------------
epoch: 499, loss: 0.027587986318394542
test_accuracy: 0.9666666666666667
-------------------------------------------------
total_time: 16.90237021446228
 

 

 

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
以下是关于SGDM优化器和Adam优化器的介绍: 1. SGDM优化器(Stochastic Gradient Descent with Momentum)是一种基于梯度下降的优化算法,它在更新参数时考虑了之前的梯度信息。具体来说,SGDM优化器引入了一个动量项,用于加速参数更新的过程。动量项可以看作是之前梯度的加权平均,它使得参数更新具有惯性,从而在参数空间更快地找到最优解。SGDM优化器的伪代码如下[^1]: ```python v = 0 # 初始化动量项 learning_rate = 0.01 # 学习率 beta = 0.9 # 动量系数 for t in range(num_iterations): # 计算梯度 gradient = compute_gradient() # 更新动量项 v = beta * v + (1 - beta) * gradient # 更新参数 parameters = parameters - learning_rate * v ``` 2. Adam优化器(Adaptive Moment Estimation)是一种结合了动量项和自适应学习率的优化算法。它不仅考虑了之前的梯度信息,还根据梯度的一阶矩估计和二阶矩估计来自适应地调整学习率。具体来说,Adam优化器维护了两个动量项,分别是梯度的一阶矩估计(平均梯度)和二阶矩估计(梯度的方差)。这两个动量项分别用于调整参数更新的方向和大小。Adam优化器的伪代码如下: ```python m = 0 # 初始化一阶矩估计 v = 0 # 初始化二阶矩估计 beta1 = 0.9 # 一阶矩估计的指数衰减率 beta2 = 0.999 # 二阶矩估计的指数衰减率 epsilon = 1e-8 # 避免除零错误的小常数 learning_rate = 0.001 # 学习率 for t in range(num_iterations): # 计算梯度 gradient = compute_gradient() # 更新一阶矩估计和二阶矩估计 m = beta1 * m + (1 - beta1) * gradient v = beta2 * v + (1 - beta2) * (gradient ** 2) # 纠正偏差 m_hat = m / (1 - beta1 ** t) v_hat = v / (1 - beta2 ** t) # 更新参数 parameters = parameters - learning_rate * m_hat / (sqrt(v_hat) + epsilon) ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值