Python 实现通过 RNN实现二进制的乘法

http://blog.csdn.net/zzukun/article/details/49968129  以下Visual Studio Code.


import copy, numpy as np

np.random.seed(0)


# compute sigmoid nonlinearity  
def sigmoid(x):
    output=1/(1+np.exp(-x))
    return output


# convert output of sigmoid function to its derivative  
def sigmoid_output_to_derivative(output):  
    return output*(1-output) 


# training dataset generation  
int2binary = {}  
binary_dim = 8  
largest_number = pow(2,binary_dim)    # 256长度
binary = np.unpackbits(  
    np.array([range(largest_number)],dtype=np.uint8).T,axis=1) 


#int2binary 声明了一个查找表 256 个二进制数,这个表是一个实数与对应二进制表示的映射。
#二进制表示将会是我们网路的输入与输出,所以这个查找表将会帮助我们将实数转化为其二进制表示。
for i in range(largest_number):  
    int2binary[i] = binary[i]  


#print binary[10]    
#print int2binary


# input variables  
alpha = 0.1   #这里设置了学习速率。
input_dim = 2   #我们要把两个数加起来,所以我们一次要输入两位字符。如此以来,我们的网络就需要两个输入。


hidden_dim = 16  
'''
这是隐含层的大小,回来存储“携带位”。
需要注意的是,它的大小比原理上所需的要大。
自己尝试着调整一下这个值,然后看看它如何影响收敛速率。
更高的隐含层维度会使训练变慢还是变快?更多或是更少的迭代次数?
'''
output_dim = 1  


  
# initialize neural network weights  
synapse_0 = 2*np.random.random((input_dim,hidden_dim)) - 1  
synapse_1 = 2*np.random.random((hidden_dim,output_dim)) - 1  
synapse_h = 2*np.random.random((hidden_dim,hidden_dim)) - 1  
  
synapse_0_update = np.zeros_like(synapse_0)  
synapse_1_update = np.zeros_like(synapse_1)  
'''
这个权值矩阵连接了前一时刻的隐含层与现在时刻的隐含层。
它同样连接了当前时刻的隐含层与下一时刻的隐含层。
如此以来,它就有隐含层维度大小(hidden_dim)的行与隐含层维度大小(hidden_dim)的列
(假如你没有修改参数就是16×16)。
'''


synapse_h_update = np.zeros_like(synapse_h) 


print len(synapse_h),len(synapse_h[0])
print len(synapse_0),len(synapse_0[0])
print len(synapse_1),len(synapse_1[0])
# training logic  


for j in range(10000):  
      
    # generate a simple addition problem (a + b = c)  
    a_int = np.random.randint(largest_number/2) # int version  
    a = int2binary[a_int] # binary encoding  
  
    b_int = np.random.randint(largest_number/2) # int version  
    b = int2binary[b_int] # binary encoding  
  
    # true answer  
    c_int = a_int + b_int  
    c = int2binary[c_int]  
      
    # where we'll store our best guess (binary encoded)  
    '''
    初始化一个空的二进制数组,
    用来存储神经网络的预测值(便于我们最后输出)。
    你也可以不这样做,但是我觉得这样使事情变得更符合直觉。
    '''


    d = np.zeros_like(c)  
    
    overallError = 0  
      
    layer_2_deltas = list()  
    layer_1_values = list()  
    '''
    这两个list会每个时刻不断的记录layer 2的导数值与layer 1的值。
    '''


    layer_1_values.append(np.zeros(hidden_dim))  
      
    # moving along the positions in the binary encoding  
    #这个循环是遍历二进制数字
    for position in range(binary_dim):   
          
        # generate input and output  
        '''
        X跟图片中的“layer_0”是一样的,
        X数组中的每个元素包含两个二进制数,
        其中一个来自a,一个来自b。
        它通过position变量从a,b中检索,
        从最右边往左检索。所以说,当position等于0时,
        就检索a最右边的一位和b最右边的一位。
        当position等于1时,就向左移一位。
        '''        
        X = np.array([[a[binary_dim - position - 1],b[binary_dim - position - 1]]])  
        y = np.array([[c[binary_dim - position - 1]]]).T  
  
        # hidden layer (input ~+ prev_hidden)  
        '''这里就是奥妙所在!一定一定一定要保证你理解这一行!!!
        为了建立隐含层,我们首先做了两件事。第一,我们从输入层传播到隐含层(np.dot(X,synapse_0))。
        然后,我们从之前的隐含层传播到现在的隐含层(np.dot(prev_layer_1.synapse_h))。
        在这里,layer_1_values[-1]就是取了最后一个存进去的隐含层,也就是之前的那个隐含层!
        然后我们把两个向量加起来!!!!然后再通过sigmoid函数。
        那么,我们怎么结合之前的隐含层信息与现在的输入呢?当每个都被变量矩阵传播过以后,
        我们把信息加起来。


        '''
        layer_1 = sigmoid(np.dot(X,synapse_0) + np.dot(layer_1_values[-1],synapse_h))  
        
        print len(layer_1),len(layer_1[0])
        # output layer (new binary representation)  
        #隐含层传播到输出层,即输出一个预测值。
        layer_2 = sigmoid(np.dot(layer_1,synapse_1)) 
        
        print len(layer_2),len(layer_2[0]) 
  
        # did we miss?... if so by how much?  
        #计算一下预测误差(预测值与真实值的差)。
        layer_2_error = y - layer_2  
        #这里我们把导数值存起来,即把每个时刻的导数值都保留着。
        layer_2_deltas.append((layer_2_error)*sigmoid_output_to_derivative(layer_2))  
        #计算误差的绝对值,并把它们加起来,这样我们就得到一个误差的标量(用来衡量传播)。我们最后会得到所有二进制位的误差的总和。


        overallError += np.abs(layer_2_error[0])  
      
        # decode estimate so we can print it out  
        d[binary_dim - position - 1] = np.round(layer_2[0][0])  
          
        # store hidden layer so we can use it in the next timestep  
        #将layer_1的值拷贝到另外一个数组里,这样我们就可以下一个时间使用这个值。
        layer_1_values.append(copy.deepcopy(layer_1))  
      
    future_layer_1_delta = np.zeros(hidden_dim)  
    '''
      我们已经完成了所有的正向传播,
      并且已经计算了输出层的导数,并将其存入在一个列表里了。现在我们需要做的就是反向传播,从最后一个时间点开始,反向一直到第一个。
    '''
    for position in range(binary_dim):  
          
        X = np.array([[a[position],b[position]]])  
        layer_1 = layer_1_values[-position-1]  #从列表中取出当前的隐含层。
        prev_layer_1 = layer_1_values[-position-2]   #从列表中取出前一个隐含层。
          
        # error at output layer  
        layer_2_delta = layer_2_deltas[-position-1]  #从列表中取出当前输出层的误差
        # error at hidden layer  
        #这一行计算了当前隐含层的误差。通过当前之后一个时间点的误差和当前输出层的误差计算。
        layer_1_delta = (future_layer_1_delta.dot(synapse_h.T) +  
            layer_2_delta.dot(synapse_1.T)) * sigmoid_output_to_derivative(layer_1) 
      
        # let's update all our weights so we can try again  
        '''
        :我们已经有了反向传播中当前时刻的导数值
        ,那么就可以生成权值更新的量了(但是还没真正的更新权值)。
        我们会在完成所有的反向传播以后再去真正的更新我们的权值矩阵,这是为什么呢?
        因为我们要用权值矩阵去做反向传播。如此以来,在完成所有反向传播以前,
        我们不能改变权值矩阵中的值。
        '''
        synapse_1_update += np.atleast_2d(layer_1).T.dot(layer_2_delta)  
        synapse_h_update += np.atleast_2d(prev_layer_1).T.dot(layer_1_delta)  
        synapse_0_update += X.T.dot(layer_1_delta)  
          
        future_layer_1_delta = layer_1_delta  
      
    '''
    现在我们就已经完成了反向传播,得到了权值要更新的量,所以就赶快更新权
    '''
    synapse_0 += synapse_0_update * alpha  
    synapse_1 += synapse_1_update * alpha  
    synapse_h += synapse_h_update * alpha      
  
    synapse_0_update *= 0  
    synapse_1_update *= 0  
    synapse_h_update *= 0  
      
    # print out progress  
    if(j % 1000 == 0):  
        print "Error:" + str(overallError)  
        print "Pred:" + str(d)  
        print "True:" + str(c)  
        out = 0  
        for index,x in enumerate(reversed(d)):  
            out += x*pow(2,index)  
        print str(a_int) + " + " + str(b_int) + " = " + str(out)  
        print "------------"  

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,我可以为你提供一个简单的 C# 实现 RNN 二进制加法的代码示例。在这个示例中,我们将使用 RNN 来学习如何将两个二进制数相加。 首先,我们需要导入以下命名空间: ```csharp using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Threading.Tasks; ``` 然后,我们定义一些常量和变量: ```csharp const int INPUT_SIZE = 2; const int HIDDEN_SIZE = 16; const int OUTPUT_SIZE = 1; const int ITERATIONS = 10000; const double LEARNING_RATE = 0.1; double[,] X = new double[,] { { 0, 0 }, { 0, 1 }, { 1, 0 }, { 1, 1 } }; double[,] Y = new double[,] { { 0 }, { 1 }, { 1 }, { 0 } }; double[,] Wxh = new double[INPUT_SIZE, HIDDEN_SIZE]; double[,] Whh = new double[HIDDEN_SIZE, HIDDEN_SIZE]; double[,] Why = new double[HIDDEN_SIZE, OUTPUT_SIZE]; double[,] bh = new double[1, HIDDEN_SIZE]; double[,] by = new double[1, OUTPUT_SIZE]; double[,] h = new double[1, HIDDEN_SIZE]; double[,] y = new double[1, OUTPUT_SIZE]; ``` 接下来,我们定义一些函数来执行矩阵乘法和激活函数: ```csharp static double[,] Dot(double[,] a, double[,] b) { int rows = a.GetLength(0); int cols = b.GetLength(1); double[,] c = new double[rows, cols]; for (int i = 0; i < rows; i++) { for (int j = 0; j < cols; j++) { double sum = 0.0; for (int k = 0; k < a.GetLength(1); k++) { sum += a[i, k] * b[k, j]; } c[i, j] = sum; } } return c; } static double[,] Sigmoid(double[,] a) { int rows = a.GetLength(0); int cols = a.GetLength(1); double[,] b = new double[rows, cols]; for (int i = 0; i < rows; i++) { for (int j = 0; j < cols; j++) { b[i, j] = 1.0 / (1.0 + Math.Exp(-a[i, j])); } } return b; } ``` 然后,我们初始化权重和偏差: ```csharp Random rand = new Random(); for (int i = 0; i < INPUT_SIZE; i++) { for (int j = 0; j < HIDDEN_SIZE; j++) { Wxh[i, j] = rand.NextDouble() - 0.5; } } for (int i = 0; i < HIDDEN_SIZE; i++) { for (int j = 0; j < HIDDEN_SIZE; j++) { Whh[i, j] = rand.NextDouble() - 0.5; } } for (int i = 0; i < HIDDEN_SIZE; i++) { for (int j = 0; j < OUTPUT_SIZE; j++) { Why[i, j] = rand.NextDouble() - 0.5; } } for (int i = 0; i < 1; i++) { for (int j = 0; j < HIDDEN_SIZE; j++) { bh[i, j] = rand.NextDouble() - 0.5; } } for (int i = 0; i < 1; i++) { for (int j = 0; j < OUTPUT_SIZE; j++) { by[i, j] = rand.NextDouble() - 0.5; } } ``` 现在,我们可以开始训练 RNN 模型。在每次迭代中,我们将输入两个二进制数并计算输出结果。然后,我们使用反向传播算法来更新权重和偏差: ```csharp for (int iter = 0; iter < ITERATIONS; iter++) { double loss = 0.0; for (int i = 0; i < X.GetLength(0); i++) { // forward pass h = Sigmoid(Dot(X.GetRow(i), Wxh) + Dot(h, Whh) + bh); y = Sigmoid(Dot(h, Why) + by); // calculate loss loss += Math.Pow(Y[i, 0] - y[0, 0], 2); // backward pass double[,] dy = new double[1, OUTPUT_SIZE]; dy[0, 0] = y[0, 0] - Y[i, 0]; double[,] dh = Dot(dy, Why.Transpose()) * h * (1 - h); double[,] dWhy = Dot(h.Transpose(), dy); double[,] dWxh = Dot(X.GetRow(i).Transpose(), dh); double[,] dWhh = Dot(h.Transpose(), dh) + Dot(h.Transpose(), dh).Transpose(); double[,] dby = dy; double[,] dbh = dh; // update weights and biases Why -= LEARNING_RATE * dWhy; Wxh -= LEARNING_RATE * dWxh; Whh -= LEARNING_RATE * dWhh; by -= LEARNING_RATE * dby; bh -= LEARNING_RATE * dbh; } loss /= X.GetLength(0); if (iter % 1000 == 0) { Console.WriteLine($"Iteration: {iter}, Loss: {loss}"); } } ``` 最后,我们可以使用训练好的模型来计算两个二进制数的和: ```csharp double[,] x1 = new double[,] { { 0, 0 } }; double[,] x2 = new double[,] { { 0, 1 } }; double[,] x3 = new double[,] { { 1, 0 } }; double[,] x4 = new double[,] { { 1, 1 } }; double[,] h1 = new double[1, HIDDEN_SIZE]; double[,] h2 = new double[1, HIDDEN_SIZE]; double[,] h3 = new double[1, HIDDEN_SIZE]; double[,] h4 = new double[1, HIDDEN_SIZE]; double[,] y1 = new double[1, OUTPUT_SIZE]; double[,] y2 = new double[1, OUTPUT_SIZE]; double[,] y3 = new double[1, OUTPUT_SIZE]; double[,] y4 = new double[1, OUTPUT_SIZE]; h1 = Sigmoid(Dot(x1, Wxh) + Dot(h1, Whh) + bh); y1 = Sigmoid(Dot(h1, Why) + by); h2 = Sigmoid(Dot(x2, Wxh) + Dot(h2, Whh) + bh); y2 = Sigmoid(Dot(h2, Why) + by); h3 = Sigmoid(Dot(x3, Wxh) + Dot(h3, Whh) + bh); y3 = Sigmoid(Dot(h3, Why) + by); h4 = Sigmoid(Dot(x4, Wxh) + Dot(h4, Whh) + bh); y4 = Sigmoid(Dot(h4, Why) + by); Console.WriteLine($"0 + 0 = {Math.Round(y1[0, 0])}"); Console.WriteLine($"0 + 1 = {Math.Round(y2[0, 0])}"); Console.WriteLine($"1 + 0 = {Math.Round(y3[0, 0])}"); Console.WriteLine($"1 + 1 = {Math.Round(y4[0, 0])}"); ``` 这个程序的输出应该是: ``` 0 + 0 = 0 0 + 1 = 1 1 + 0 = 1 1 + 1 = 0 ``` 这就是使用 RNN 实现二进制加法的简单示例。希望这可以帮助你理解 RNN 的工作原理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值