1、梯度计算
学习北京大学的mooc,记录笔记
代码块:
生成一个变量w初值为5,设定为可训练
学习率lr大小会影响梯度下降的速度和步幅
迭代次数epoch
import tensorflow as tf
import matplotlib.pyplot as plt
w = tf.Variable(tf.constant(5,dtype=tf.float32))
lr = 0.9
epoch = 40
plt_show = []
for epoch in range(epoch):# for epoch 定义顶层循环,表示对数据集循环epoch次,此例数据集数据仅有1个w,初始化时候constant赋值为5,循环40次迭代。
with tf.GradientTape() as tape: # with结构到grads框起了梯度的计算过程。
loss = tf.square(w + 1)
grads = tape.gradient(loss, w) # .gradient函数告知谁对谁求导
w.assign_sub(lr * grads)# .assign_sub 对变量做自减 即:w -= lr*grads 即 w = w - lr*grads
#w = w - lr * float(grads)#这句错误,因为类型不对
plt_show.append(float(w))
print("After %s epoch,w is %f,loss is %f" % (epoch, w.numpy(), loss))
print(type(grads), type(w))
plt.plot(plt_show)
plt.show()
# 最终目的:找到 loss 最小 即 w = -1 的最优参数w
可以得到数据曲线如下
并且可以看到求梯度的过程中w和grads的数据类型并不是通常的float型
梯度最后算到接近1