自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Datawhale X 李宏毅苹果书 AI夏令营 Task3

3.7提出了批量归一化的想法,前面的部分我们研究了,在各种各样简单或复杂的误差表面,应该使用什么样的方法才能得到一个比较好的训练效果,而批量归一化则是从误差表面的角度出发,想办法将一个复杂的误差表面变得简单易于训练。解决的方法为特征归一化,典型代表为Z值归一化,也叫标准化,是统计上很常用的一种方法,这种方法能够将一组数据转化为均值为0,方差为1,并且不改变其相对位置关系,这样处理之后每个维度的值就都在0附近波动,从而就改造出了一个比较简单的误差表面。

2024-09-03 23:28:20 162

原创 Datawhale X 李宏毅苹果书 AI夏令营 Task2

例如,若梯度g比较小,我们一般会有一个较大的步伐,而当梯度增大时,我们为了能让步伐敏锐地感知到这一变化,往往会人为给定一个较小的α,提高当前梯度对新一步σ的影响程度,从而很快地减小步伐,让它适应较大的梯度,这就是RMSProp相较于AdaGrad的优势,但缺点也很明显,就是每一次迭代都需要人为给定一个α的值,一方面操作起来较为繁琐,另一方面人为赋值存在一定的主观性,可能对结果造成不好的影响。相反的,当梯度较小时,所对应的σ也较小,此时学习率就比较大,这样就实现了学习率的自我调整。

2024-08-30 01:33:20 194

原创 Datawhale X 李宏毅苹果书 AI夏令营 Task1

它与一般梯度下降的区别在于,一般梯度下降会被困在局部最小值和鞍点处,虽然在负梯度的单一作用下会导致无法进行下一步的移动,但在引入动量之后,下一步的移动也会受到前一次移动的作用,因此在二者的共同作用下,即使遇到鞍点或者局部最小值也是有可能得以继续移动的,从而也就有可能得到一个更好的结果。而从另一个层面来说,小批量梯度的方向比较存在噪声,这使得其在优化结果上的表现更为出众,因为不同批量所对应的损失函数并不相同,因此其不容易在鞍点被卡住,从而能够顺利地继续向着损失降低的方向训练。主要介绍了批量和动量两个概念。

2024-08-26 23:50:09 369

原创 Datawhale AI夏令营 NLP方向 Task2之我与跑通代码的艰难抗争

Task2中所给出的baseline代码并不是完整的,即不能像Task1所给的代码那样一键跑通,需要在这个基础上做一些简单的补充。3.切换到代码界面,执行baseline中所给的三行“install”代码,我在这里又添加了一个install spacy的操作,不知道是不是画蛇添足,因为之前按原代码跑的时候后面安装spacy里的tokenizer时经常报错(显示什么和什么不适配好像),我看b站上的视频在加载spacy时也是直接用了install的操作,所以就试了一下,添加完以后就没有这个问题了。

2024-07-17 23:46:23 283

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除