神经网络实现过程:
- 准备数据,提取特征,作为输入
- 搭建NN结构,从输入到输出(搭建计算图,使用会话执行)
- 迭代优化参数
- 使用训练好的模型进行分类
使用Tensorflow搭建神经网络分为以下四步:
- 导入模块
- 前向传播(定义输入,参数和输出)
- 反向传播,定义损失函数,反向传播方法。
- 生成会话,训练
1.导入模块:
导入程序的以来模块,如:
import tensorflow as tf
import numpy as np
2.前向传播:
定义输入,输出,构造计算图
定义一个如下的神经网络:
输入:1*2,隐藏层:1*3,输出:1*1
神经网络参数
指神经元线上的权重,用变量表示,一般会先随机生成这些参数,常用的生成随机数,数组的方式有:
- tf.random_normal 生成正态分布随机数
- tf.truncated_normal 生成去掉过大偏离点的正态分布随机数
- tf.random_uniform 生成均匀分布随机数
- tf.zeros 生成全0数组
- tf.ones 生成全1数组
- tf.fill 生成全定值数组
- tf.constant 生成给定值数组
tf.placeholder(tf.float32, shape=[None, 2]) 占位
BATCH_SIZE = 8
seed = 23455
rng = np.random.RandomState(seed)
X = rng.rand(32, 2) #32 * 2 matrix
Y = [[int(X0 + X1 < 1)] for (X0, X1) in X]
print("X:\n"); print(X)
print("Y:\n"); print(Y)
#神经网络的输入参数和输出,前向传播过程
x = tf.placeholder(tf.float32, shape=(None, 2))
y_ = tf.placeholder(tf.float32, shape=(None, 1))
w1 = tf.Variable(tf.random_normal([2, 3], stddev=1, seed=1))
w2 = tf.Variable(tf.random_normal([3, 1], stddev=1, seed=1))
a = tf.matmul(x, w1)
y = tf.matmul(a, w2)
3.反向传播
反向传播:训练模型参数,在所有参数上用梯度下降,使得NN在训练数据上的损失最小。
损失函数(loss):计算得到的预测值和已知答案的差距,有很多方法,均方误差MSE是比较常用的方法之一。
MSE(y_, y) = sum(1 to n)(y-y_)^2/n
loss_mse = tf.reduce_mean(tf.square(y - y_))
反向传播训练方法:以最小loss值为优化目标,有梯度下降,momentum优化器,adam优化器等
tensorflow表示:
train_step = tf.train.GradientDescentOptimizer(learning_rate).minimize(loss)
train_step = tf.train.MomentumOptimizer(learning_rate, momentum).minimize(loss)
train_step = tf.train.AdamOptimizer(learning_rate).minimize(loss)
学习率:
决定每次参数更新的幅度,过大导致震荡不收敛,过小会收敛过慢。
#损失函数以及反向传播方法
loss=tf.reduce_mean(tf.square(y-y_))
train_step = tf.train.GradientDescentOptimizer(0.001).minimize(loss)
4.生成会话,训练
#生成会话,训练
with tf.Session() as sess:
init_op = tf.global_variables_initializer()
sess.run(init_op)
print("w1\n"); print(sess.run(w1))
print("w2\n"); print(sess.run(w2))
print("\n")
STEPS = 300000
for i in range(STEPS):
start = (i * BATCH_SIZE) % 32
end = start + BATCH_SIZE
sess.run(train_step, feed_dict={x: X[start: end], y_: Y[start:end]})
在上一步中,使用tf.Variable定义了一些变量,在会话中,变量初始化:
init = tf.global_variables_initializer()
sess.run(init)