误差反向传播法求梯度全过程

写在前面

       hello,hello~我又来刷刷存在感咯,最近学习鱼书学到了误差反向传播法,就做一个梳理并把代码整理一下。

        本文章是以2层神经网络为例,同时使用了层的概念,分别包含Affine层,激活函数层(本文章使用的激活函数时Relu函数),Softmax-with-Loss层。接下来我们先介绍各个层的代码(代码的复用性很高哦,可放心食用),然后还是构架一个2层的神经网络,并通过反向传播法求梯度最终成功完成分类。

        本文章使用的数据集是MNIST手写数字图像数字集。

各个层的作用和代码实现

   激活函数层

      激活函数采用Relu激活函数,使用Relu函数是为了引入非线性因素。Relu函数的Python实现。

#激活函數的實現之Relu层
class Relu:
    def __init__(self):
        self.mask = None
    def forward(self,x):
        self.mask = (x<=0)
        # print(self.mask)
        out = x.copy()
        # print(out)
        out[self.mask] =0
        # print(out)
        return out
    def backward(self,dout):
        dout[self.mask] = 0
        print(dout)
        dx =dout
        return dx

  Affine层

        就是计算加权信号的总和,对应矩阵相乘的部分,代码如下(包括了张量)

class Affine:
    def __init__(self, W, b):
        self.W = W
        self.b = b


        self.x = None
        self.original_x_shape = None
        # 权重和偏置参数的导数
        self.dW = None
        self.db = None


    def forward(self, x):
        # 对应张量
        self.original_x_shape = x.shape
        x = x.reshape(x.shape[0], -1)
        self.x = x


        out = np.dot(self.x, self.W) + self.b


        return out

Softmax-with-Loss层

        该层的作用主要就是把输出值正规化然后输出然后计算关于交叉熵误差损失函数的梯度

class SoftmaxWithLoss:
    def __init__(self):
        self.loss = None #损失
        self.y = None   #softmax的输出
        self.t = None   #监督数据(one-hot vector)
    def forward(self,x,t):
        self.t = t
        self.y = softmax(t)
        self.loss = cross_entropy_error(self.y,self.t)
        return self.loss
    def backward(self,dout = 1):
        batch_size = self.t.shape[0]
        dx = (self.y-self.t)/batch_size
        return dx

简单的二层神经网络使用误差反向传播法的例子

import numpy as np
from mnist import load_mnist
import matplotlib.pyplot as plt
#激活函數的實現之Sigmoid函数
class Sigmoid:
    def __init__(self):
        self.out = None
    def forward(self,x):
        out = 1/(1+np.exp(-x))
        self.out = out
        return out
    def backward(self,dout):
        dx =dout*(1.0-self.out)*self.out
        return dx
class Affine:
    def __init__(self,W,b):
        self.W = W
        self.b = b
        self.x = None
        self.dW = None
        self.db = None
    def forward(self,x):
        self.x = x
        out = np.dot(x,self.W)+self.b
        return out
    def backward(self,dout):
        dx =np.dot(dout,self.W.T)
        self.dw = np.dot(self.x.T,dout)
        self.db = np.sum(dout,axis = 0)

        return dx


class Affine:
    def __init__(self, W, b):
        self.W = W
        self.b = b

        self.x = None
        self.original_x_shape = None
        # 权重和偏置参数的导数
        self.dW = None
        self.db = None

    def forward(self, x):
        # 对应张量
        self.original_x_shape = x.shape
        x = x.reshape(x.shape[0], -1)
        self.x = x

        out = np.dot(self.x, self.W) + self.b

        return out
class SoftmaxWithLoss:
    def __init__(self):
        self.loss = None #损失
        self.y = None   #softmax的输出
        self.t = None   #监督数据(one-hot vector)
    def forward(self,x,t):
        self.t = t
        self.y = softmax(t)
        self.loss = cross_entropy_error(self.y,self.t)
        return self.loss
    def backward(self,dout = 1):
        batch_size = self.t.shape[0]
        dx = (self.y-self.t)/batch_size
        return dx


# 读入数据
(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True)

network = TwoLayerNet(input_size=784, hidden_size=50, output_size=10)

iters_num = 10000
train_size = x_train.shape[0]
batch_size = 100
learning_rate = 0.1

train_loss_list = []
train_acc_list = []
test_acc_list = []

iter_per_epoch = max(train_size / batch_size, 1)

for i in range(iters_num):
    batch_mask = np.random.choice(train_size, batch_size)
    x_batch = x_train[batch_mask]
    t_batch = t_train[batch_mask]

    # 梯度
    # grad = network.numerical_gradient(x_batch, t_batch)
    grad = network.gradient(x_batch, t_batch)

    # 更新
    for key in ('W1', 'b1', 'W2', 'b2'):
        network.params[key] -= learning_rate * grad[key]

    loss = network.loss(x_batch, t_batch)
    train_loss_list.append(loss)

    if i % iter_per_epoch == 0:
        train_acc = network.accuracy(x_train, t_train)
        test_acc = network.accuracy(x_test, t_test)
        train_acc_list.append(train_acc)
        test_acc_list.append(test_acc)
        print(train_acc, test_acc)

通过跟数值微分的方法对比,这太快了,关与例子中各个方法的作用我这里没有给出,大家可以参考SGD学习算法的实现,大同小异。希望本文对您有用~~

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
误差反向传播法是一种用于计算神经网络中参数梯度的方法。它通过将正向传播和反向传播结合起来,通过链式法则来计算每个参数对于整体损失函数的梯度。在误差反向传播法中,首先通过正向传播计算出网络的输出结果,然后根据损失函数计算出网络的损失。接着,通过反向传播将损失从输出层向输入层逐层传递,计算出每个参数对于损失的贡献,最终得到参数的梯度。 在Python实现误差反向传播法,可以使用NumPy库来进行矩阵和向量操作。以下是一个简单的示例代码实现了一个简单的神经网络误差反向传播过程的代码片段: ```python # 假设网络有两个全连接层和一个输出层 import numpy as np # 正向传播 def forward_propagation(X, parameters): # 假设第一层的激活函数为ReLU Z1 = np.dot(parameters['W1'], X) + parameters['b1'] A1 = np.maximum(0, Z1) # 假设第二层的激活函数为ReLU Z2 = np.dot(parameters['W2'], A1) + parameters['b2'] A2 = np.maximum(0, Z2) # 假设输出层的激活函数为sigmoid Z3 = np.dot(parameters['W3'], A2) + parameters['b3'] A3 = 1 / (1 + np.exp(-Z3)) return A3 # 反向传播 def backward_propagation(X, Y, parameters, cache): m = X.shape[1] # 计算输出层的误差 dZ3 = cache['A3'] - Y # 计算第二层的误差 dW3 = 1 / m * np.dot(dZ3, cache['A2'].T) db3 = 1 / m * np.sum(dZ3, axis=1, keepdims=True) dA2 = np.dot(parameters['W3'].T, dZ3) dZ2 = np.multiply(dA2, np.int64(cache['A2'] > 0)) # 计算第一层的误差 dW2 = 1 / m * np.dot(dZ2, cache['A1'].T) db2 = 1 / m * np.sum(dZ2, axis=1, keepdims=True) dA1 = np.dot(parameters['W2'].T, dZ2) dZ1 = np.multiply(dA1, np.int64(cache['A1'] > 0)) # 计算输入层的误差 dW1 = 1 / m * np.dot(dZ1, X.T) db1 = 1 / m * np.sum(dZ1, axis=1, keepdims=True) gradients = { 'dW1': dW1, 'db1': db1, 'dW2': dW2, 'db2': db2, 'dW3': dW3, 'db3': db3 } return gradients ``` 以上代码片段中的`forward_propagation`函数实现神经网络的正向传播过程,`backward_propagation`函数实现神经网络反向传播过程。其中,`parameters`是神经网络的参数,`cache`是正向传播过程中保存的中间结果,`X`是输入数据,`Y`是标签数据。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值