wwLitteng626-CSDN博客

原创 Datawhale X 李宏毅苹果书 AI夏令营 Task3

3.7提出了批量归一化的想法，前面的部分我们研究了，在各种各样简单或复杂的误差表面，应该使用什么样的方法才能得到一个比较好的训练效果，而批量归一化则是从误差表面的角度出发，想办法将一个复杂的误差表面变得简单易于训练。解决的方法为特征归一化，典型代表为Z值归一化，也叫标准化，是统计上很常用的一种方法，这种方法能够将一组数据转化为均值为0，方差为1，并且不改变其相对位置关系，这样处理之后每个维度的值就都在0附近波动，从而就改造出了一个比较简单的误差表面。

2024-09-03 23:28:20 162

原创 Datawhale X 李宏毅苹果书 AI夏令营 Task2

例如，若梯度g比较小，我们一般会有一个较大的步伐，而当梯度增大时，我们为了能让步伐敏锐地感知到这一变化，往往会人为给定一个较小的α，提高当前梯度对新一步σ的影响程度，从而很快地减小步伐，让它适应较大的梯度，这就是RMSProp相较于AdaGrad的优势，但缺点也很明显，就是每一次迭代都需要人为给定一个α的值，一方面操作起来较为繁琐，另一方面人为赋值存在一定的主观性，可能对结果造成不好的影响。相反的，当梯度较小时，所对应的σ也较小，此时学习率就比较大，这样就实现了学习率的自我调整。

2024-08-30 01:33:20 194

原创 Datawhale X 李宏毅苹果书 AI夏令营 Task1

它与一般梯度下降的区别在于，一般梯度下降会被困在局部最小值和鞍点处，虽然在负梯度的单一作用下会导致无法进行下一步的移动，但在引入动量之后，下一步的移动也会受到前一次移动的作用，因此在二者的共同作用下，即使遇到鞍点或者局部最小值也是有可能得以继续移动的，从而也就有可能得到一个更好的结果。而从另一个层面来说，小批量梯度的方向比较存在噪声，这使得其在优化结果上的表现更为出众，因为不同批量所对应的损失函数并不相同，因此其不容易在鞍点被卡住，从而能够顺利地继续向着损失降低的方向训练。主要介绍了批量和动量两个概念。

2024-08-26 23:50:09 369

原创 Datawhale AI夏令营 NLP方向 Task2之我与跑通代码的艰难抗争

Task2中所给出的baseline代码并不是完整的，即不能像Task1所给的代码那样一键跑通，需要在这个基础上做一些简单的补充。3.切换到代码界面，执行baseline中所给的三行“install”代码，我在这里又添加了一个install spacy的操作，不知道是不是画蛇添足，因为之前按原代码跑的时候后面安装spacy里的tokenizer时经常报错（显示什么和什么不适配好像），我看b站上的视频在加载spacy时也是直接用了install的操作，所以就试了一下，添加完以后就没有这个问题了。

2024-07-17 23:46:23 283

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人