前向计算和后向传播的完整代码

这是课程链接,里面有反向传播的整体代码,之后会敲一遍,然后上代码片段
前向计算和后向传播是有固定顺序的,因为每一步都需要前一步或者前几步的结果。第一步先进行forward前向计算,第二步进行loss的计算,再之后计算gradient,第四步就该更新梯度了。
这一节还讲了特征为什么要进行尺度归一,是为了使步长更加合适。
在这里插入图片描述
这节课的课后作业很有意思,可以想一下:
1.样本归一化:预测时的样本数据同样也需要归一化,但使用训练样本的均值和极值进行计算,这是为什么?
2.当部分梯度的计算为0(接近0)时,可能是什么情况?是否意味着完成训练?

答2:可能是这个模型的整个loss函数不仅仅只有一个波谷,可能有多个波谷,部分梯度为0可能只是在某一个波谷里,但这个波谷可能位置较高,不是最下面的位置。所有并不意味着完成训练。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值