前向传播为输入的矩阵经过计算到输出层,而反向传播与梯度下降则是训练神经网络的核心步骤.
梯度下降算法的代码如下:
def SGD(self, training_data, epochs, mini_batch_size, eta, test_data = None):
if test_data: n_test = len(test_data)
n = len(training_data)
for j in range(epochs): #自动定义的循环次数,也就是训练神经网络的循环次数
random.shuffle(training_data) #shuffle为将训练接随机打乱重排,保证训练的数据的随机性
mini_batches = [training_data[k:k+mini_batch_size] for k in range(0, n, mini_batch_size)] #这里形成了一个列表,列表的每一个元素为一个矩阵,一个矩阵就是一次循环的小型数据集.更新神经网络的时候,利用的并不是一个数据(一张图片),而是利用的一个小型矩阵.这样的向量化处理大大提高了代码的执行效率.
for mini_batch in mini_batches:
self.update_mini_batch(mini_batch, eta) #这里就是利用小型的矩阵对神经网络的所有参数进行一次全面的更新(下面的代码会详细讲解)
if test_