- 博客(10)
- 收藏
- 关注
原创 【环境配置】wsl2配置深度学习环境 待完善中
wsl2 + miniconda + cuda + cudnn + torch…+ + d2l文件环境:win11,wsl2(ubuntu18.04)
2024-04-22 11:55:31 443
原创 吴恩达深度学习-Optimization+methods
实际应用中,通常采用介于单个样本与整个训练集之间的中间数量样本进行每次更新,即使用小批量梯度下降(Mini-batch Gradient Descent)。此外,成本曲线中出现的巨大振荡源于某些 mini-batch 对优化算法而言比其他 mini-batch 更难处理。由于 mini-batch 梯度下降在观察到一小部分样本后就进行参数更新,更新的方向存在一定的方差,因此 mini-batch 梯度下降收敛时的路径会呈现出“视为一个沿斜坡滚下的球的“速度”,根据梯度(或斜坡)的方向积累速度(动量)。
2024-04-20 16:16:44 733
原创 吴恩达深度学习-Initialization---Regularization---Gradient Checking
Random initializationHe initializationHe 初始化对应的是非线性激活函数(Relu 和 Prelu)。任意层的权重 W[l]W^{[l]}W[l],按照均值为 0,且方差为2n[l−1]\sqrt{\frac{2}{n^[l-1]}}n[l−1]2 的高斯分布进行初始化,可以保证每一层的输入方差尺度一致。W[l]=random∗2layers_dims[l-1]W^{[l]} = random * \sqrt{\frac{2}{\text{layers\_d
2024-04-19 20:23:02 1825 1
原创 吴恩达深度学习-assignment4
函数输入A_prev,W,b,activation,输出这下层的激活参数以及这一层的相关cache。第L层用sigmoid的后向传播,剩下L-1层用relu的后向传播。前L-1层调用 relu ,最后第L层调用 sigmoid。
2024-04-19 12:03:07 1915 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人