第一步
我们构造⼀个简单的⼈⼯训练数据集,它可以使我们能够直观⽐较学到的参数和真实的模型参
数的区别。设训练数据集样本数为1000,输⼊个数(特征数)为2。给定随机⽣成的批量样本特征X ∈ R1000×2,我们使⽤线性回归模型真实权重w = [2, −3.4]⊤和偏差b = 4.2,以及⼀个随机噪声项ϵ来⽣成标签
y = Xw + b + ϵ,
其中噪声项ϵ服从均值为0、标准差为0.01的正态分布。噪声代表了数据集中⽆意义的⼲扰。其中噪声项ϵ服从均值为0、标准差为0.01的正态分布。噪声代表了数据集中⽆意义的⼲扰。
第二步
读取数据集
第三步
初始化模型参数:我们将权重初始化成均值为0、标准差为0.01的正态随机数,偏差则初始化成0
第四步
定义模型:我们使⽤dot函数做矩阵乘法,通过矢量计算对表达式的实现。
第五步
定义损失函数
第六步
定义优化函数
第七步
训练模型:在这里我们将LearningRate设置为3,同时将Epoch设置为100,通过初步训练,将Loss降至0.033719
废话不多说,附上代码:
from mxnet import autograd, nd
import random
# 生成数据集
num_inputs = 2
num_examples = 1000
true_w = [2, -3.4]
true_b = 4.2
features = nd.random.normal(scale=1, shape=(num_examples, num_inputs))
labels = true_w[0] * features[:, 0] + true_w[1] * features[:, 1] + true_b
labels += nd.random.normal(scale=0.01, shape=labels.shape)
# 用来读取数据集
def data_iter(batch_size, features, labels):
num_examples = len(features)
indices = list(range(num_examples))
# 样本的读取顺序是随机的
random.shuffle(indices)
for i in range(0, num_examples, batch_size):
j = nd.array(indices[i: min(i + batch_size, num_examples)])
# take函数根据索引返回对应元素
yield features.take(j), labels.take(j)
# 读取第一个batch的数据
batch_size = 10
for X, y in data_iter(batch_size, features, labels):
# print(X, y)
break
# 初始化模型参数
# 将权重初始化成均值为0、标准差为0.01的正态随机数,偏差则初始化成0
w = nd.random.normal(scale=0.01, shape=(num_inputs, 1))
b = nd.zeros(shape=(1,))
# 创建参数的梯度
w.attach_grad()
b.attach_grad()
# 实现矢量计算
def linreg(X, w, b):
return nd.dot(X, w) + b
# 计算损失函数
def squared_loss(y_hat, y):
return (y_hat - y.reshape(y_hat.shape)) ** 2 / 2
# 实现计算gradient descent
def sgd(params, lr, batch_size):
for param in params:
param[:] = param - lr * param.grad / batch_size
# 设置learningRate以及迭代所需要的次数
lr = 0.03
num_epochs = 100
net = linreg
loss = squared_loss
for epoch in range(num_epochs):
# x和y分别是⼩批量样本的特征和标签
for X, y in data_iter(batch_size, features, labels):
with autograd.record():
l = loss(net(X, w, b), y) # l是有关⼩批量X和y的损失
l.backward() # ⼩批量的损失对模型参数求梯度
sgd([w, b], lr, batch_size) # 使⽤⼩批量随机梯度下降迭代模型参数
train_l = loss(net(features, w, b), labels)
print('epoch %d, loss %f' % (epoch + 1, train_l.mean().asnumpy()))
print(true_w, w)
print(true_b,b)
经过100次Epoch后,训练结果如下
通过将训练所得参数和实际参数进行输出,进行对比发现,经过单层神经网络初步构造后,大致相同。