对构建波士顿房价预测任务的神经网络模型的学习

**

对构建波士顿房价预测任务的神经网络模型的学习(笔记)

**

  1. 数据集划分

将数据集划分成训练集和测试集,其中训练集用于确定模型的参数,测试集用于评判模型的效果。为什么要对数据集进行拆分,这与学生时代的授课和考试关系比较类似,如图所示。
训练集和测试集分开的意义
2. 数据归一化处理

对每个特征进行归一化处理,使得每个特征的取值缩放到0~1之间。这样做有两个好处:一是模型训练更高效;二是特征前的权重大小可以代表该变量对预测结果的贡献度
再者就是,在后续的确定损失函数更小的点的过程中,所有参数的移动步长可以统一(学习率可以设置成统一的值);特征输入未归一化时,不同特征对应的参数所需的步长不一致,尺度较大的参数需要大步长,尺寸较小的参数需要小步长,导致无法设置统一的学习率。

  1. 均方误差

均方误差表现的“圆滑”的坡度有两个好处:
1)曲线的最低点是可导的。
2)越接近最低点,曲线的坡度逐渐放缓,有助于通过当前的梯度来判断接近最低点的程度(是否逐渐减少步长,以免错过最低点)。
而这两个特性绝对值误差是不具备的,这也是损失函数的设计不仅仅要考虑“合理性”,还要追求“易解性”的原因。

  1. np.newaxis

print('gradient_w ', gradient_w.shape)
gradient_w = gradient_w[:, np.newaxis]
print('gradient_w ', gradient_w.shape)

gradient_w (13,)
gradient_w (13,1)

print('gradient_w ', gradient_w.shape)
gradient_w = gradient_w[np.newaxis,:]
print('gradient_w ', gradient_w.shape)

gradient_w (13,)
gradient_w (1,13)

  1. 随机梯度下降法

在实际问题中,数据集往往非常大,如果每次都使用全量数据进行计算,效率非常低,通俗地说就是“杀鸡焉用牛刀”。由于参数每次只沿着梯度反方向更新一点点,因此方向并不需要那么精确。一个合理的解决方案是每次从总的数据集中随机抽取出小部分数据来代表整体,基于这部分数据计算梯度和损失来更新参数,这种方法被称作随机梯度下降法。
通过大量实验发现,模型对最后出现的数据印象更加深刻。训练数据导入后,越接近模型训练结束,最后几个批次数据对模型参数的影响越大。为了避免模型记忆影响训练效果,需要进行样本乱序操作。

采用随机梯度下降法代码:

import numpy as np

class 
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值