自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 Batch Normalization & Layer Normalization

避免因为输入输出数据数量级差别大而造成网络预测误差过大。,即均值为0,标准差为1,这里的关键在于复合标准正态分布。,BN针对每个位置进行缩放就不符合NLP的规律了。,移动的小数位数取决于属性值绝对值的最大值。,有些数值很大,有些很小,将原始值进行映射。,将数据值映射到 [0,1] 之间。如果把一批文本组成一个batch,把每层神经网络任意神经元。,每一层的参数更新都会。,能大大加快训练速度。每个句子内所有位置的词。尽可能让原始数据变为。结构,在训练过程中,,而且梯度变大意味着。所有句子同一位置的词。

2023-05-06 11:36:47 77

原创 Bert详解记录

花了两天多学习了 Bert 的原理细节。学习完 Transformer 后趁热打铁的投入到 Bert 的学习,然而并没有像预想的那般通顺。因为 BERT 并不是想象中 Encoders 的简单堆叠,BERT 中出现了许多值得学习的新概念。首先,BERT 继承了许多前辈的优秀理念,如 ELMo 的双向编码,CBOW 的 ”完形填空“,GPT 的 Trm 抽取等。我想比较重要的应该有:采用 Trm 的 Encoders 做特征抽取;双向 Attention 编码综合上下文;

2023-05-05 10:43:18 255

原创 import transformers 报错 ValueError: Unable to compare versions for ...

在如下路径中找到这两个文件 dependency_versions_table.py 和 dependency_versions_check.py,可在其中查看transformers要求的依赖包及其版本。

2023-05-05 00:40:13 675

原创 Transformer详解记录

即网络的输出为 F(x)+x,在网络结构比较深的时候,网络梯度反向传播更新参数时,容易造成梯度消失的问题,但是如果每层的输出都加上一个 x 的时候,就变成了 F(x)+x ,对 x 求导结果为1,所以就相当于。把 Encoders 的输出序列 (z_1, z_2, ..., z_n) 作为 Decoders 的输入,生成一个输出序列 (y_1, y_2, ..., y_n)。位置最合理的表示是0,1,2,3,....,但是每个词用的是嵌入向量表示,不是一个值,没法加入位置信息,所以得做一。

2023-05-04 16:48:38 1780

原创 常见词向量获取方式总结记录(面试)

但是 Word2Vec 目标不一样,它单纯就是要 Word Embedding 的,这是主产品,所以它完全可以随性地这么去训练网络。,每一维存储着词库对应序号的词语出现在当前词语周围的次数,所有这些词向量组成的矩阵就是。,NNLM 的主要任务是要学习一个解决语言模型任务的网络结构,语言模型就是要。基于统计的获取词向量的方法,基本思想是:用。缺点显而易见,一是 onehot 编码向量。,相比于Transformer,LSTM。3.2 N-Gram(统计语言模型),二是 onehot 编码并。

2023-05-04 16:36:15 80

原创 常见激活函数总结记录(面试)

ELU 的提出也解决了 ReLU 的问题。与 ReLU 相比,ELU 有负值,这会使激活的平均值接近零。相较于 sigmoid 解决了 zero-centered,但依然存在 梯度爆炸 和 幂运算问题。特别的,如果是非常大的负数,那么输出就是0;如果是非常大的正数,输出就是1。我们可以认为它是 argmax 函数的概率版本或「soft」版本。解决了 ReLU 输入为负时完全失效的情况。输出在 [0, 1] 之间,适合预测概率。输出不是 zero-centered。梯度平滑,没有跳跃。输入为负时完全失效。

2023-05-04 16:30:39 38

原创 过拟合及欠拟合解决方案(面试)

这个性质与L2的平方项有关系,即越大的数,其平方越大,越小的数,比如小于1的数,其平方反而越小。权重矩阵 W 就会被设置为接近于 0 的值,相当于消除了很多神经元的影响,减少作用参数。,从而达到稀疏化的目的,也节省了存储的空间,因为在计算时,值为0的特征都可以不用存储了。L1 在确实需要稀疏化模型的场景下,才能发挥很好的作用并且效果远胜于 L2。随着海量数据处理的兴起,对于模型稀疏化的要求也随之出现。,因此,较小的权重在被惩罚后,就会变成0,较小的权重在被惩罚后,就会变成0,下调 batch_size;

2023-05-04 16:28:14 50

原创 常见损失函数总结记录(面试)

交叉熵 能。

2023-05-04 16:20:14 78

原创 计算机综合基础知识记录(408、面试)

运算存储控制输入输出主存-缓存:用来缓解速度压力,完全由硬件实现,缓存是主存的副本主存-辅存:用来缓解容量压力,有操作系统和硬件配合实现,主存是缓存的副本主存:运行时数据辅存:暂时不用,永久保存RAM(随机存储器):随机存取,存取时间与物理位置无关ROM(只读存储器):断电内容保存。

2023-05-04 00:32:47 567 2

原创 机器学习(ML)深度学习(DL)基础知识记录(面试)

支持向量机之所以成为目前最常用,效果最好的分类器之一,在于其优秀的泛化能力,这是是因为其本身的优化目标是结构化风险最小,而不是经验风险最小,因此,通过margin的概念,得到对数据分布的结构化描述,因此减低了对数据规模和数据分布的要求。原来的问题是一个凸优化问题 , 看到凸优化问题一般会想到, 利用拉格朗日乘子法, 将有约束的问题转换为无约束的问题, 在将无约束的原问题转化为对偶问题(注意这里面的KKT条件), 进而利用SMO(序列最小优化)来解决这个对偶问题。ELU 的提出也解决了 ReLU 的问题。

2023-05-03 22:27:56 174

原创 数据库基础知识记录(面试)

事务就是用户定义的一系列数据库操作,这些操作可以视为一个完成的逻辑处理工作单元,要么全部执行,要么全部不执行,是不可分割的工作单元。主要用来保证数据的完整性和一致性。

2023-05-03 22:14:33 54

原创 国内外技术社区及个人博客分享

(不定期更新)

2023-05-03 22:01:34 64

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除