pppppppppppx-CSDN博客

原创 Batch Normalization & Layer Normalization

避免因为输入输出数据数量级差别大而造成网络预测误差过大。，即均值为0，标准差为1，这里的关键在于复合标准正态分布。，BN针对每个位置进行缩放就不符合NLP的规律了。，移动的小数位数取决于属性值绝对值的最大值。，有些数值很大，有些很小，将原始值进行映射。，将数据值映射到 [0,1] 之间。如果把一批文本组成一个batch，把每层神经网络任意神经元。，每一层的参数更新都会。，能大大加快训练速度。每个句子内所有位置的词。尽可能让原始数据变为。结构，在训练过程中，，而且梯度变大意味着。所有句子同一位置的词。

2023-05-06 11:36:47 77

原创 Bert详解记录

花了两天多学习了 Bert 的原理细节。学习完 Transformer 后趁热打铁的投入到 Bert 的学习，然而并没有像预想的那般通顺。因为 BERT 并不是想象中 Encoders 的简单堆叠，BERT 中出现了许多值得学习的新概念。首先，BERT 继承了许多前辈的优秀理念，如 ELMo 的双向编码，CBOW 的 ”完形填空“，GPT 的 Trm 抽取等。我想比较重要的应该有：采用 Trm 的 Encoders 做特征抽取;双向 Attention 编码综合上下文;

2023-05-05 10:43:18 255

原创 import transformers 报错 ValueError: Unable to compare versions for ...

在如下路径中找到这两个文件 dependency_versions_table.py 和 dependency_versions_check.py，可在其中查看transformers要求的依赖包及其版本。

2023-05-05 00:40:13 675

原创 Transformer详解记录

即网络的输出为 F(x)+x，在网络结构比较深的时候，网络梯度反向传播更新参数时，容易造成梯度消失的问题，但是如果每层的输出都加上一个 x 的时候，就变成了 F(x)+x ，对 x 求导结果为1，所以就相当于。把 Encoders 的输出序列 (z_1, z_2, ..., z_n) 作为 Decoders 的输入，生成一个输出序列 (y_1, y_2, ..., y_n)。位置最合理的表示是0,1,2,3,....，但是每个词用的是嵌入向量表示，不是一个值，没法加入位置信息，所以得做一。

2023-05-04 16:48:38 1780

原创常见词向量获取方式总结记录（面试）

但是 Word2Vec 目标不一样，它单纯就是要 Word Embedding 的，这是主产品，所以它完全可以随性地这么去训练网络。，每一维存储着词库对应序号的词语出现在当前词语周围的次数，所有这些词向量组成的矩阵就是。，NNLM 的主要任务是要学习一个解决语言模型任务的网络结构，语言模型就是要。基于统计的获取词向量的方法，基本思想是：用。缺点显而易见，一是 onehot 编码向量。，相比于Transformer，LSTM。3.2 N-Gram(统计语言模型），二是 onehot 编码并。

2023-05-04 16:36:15 80

原创常见激活函数总结记录（面试）

ELU 的提出也解决了 ReLU 的问题。与 ReLU 相比，ELU 有负值，这会使激活的平均值接近零。相较于 sigmoid 解决了 zero-centered，但依然存在梯度爆炸和幂运算问题。特别的，如果是非常大的负数，那么输出就是0；如果是非常大的正数，输出就是1。我们可以认为它是 argmax 函数的概率版本或「soft」版本。解决了 ReLU 输入为负时完全失效的情况。输出在 [0, 1] 之间，适合预测概率。输出不是 zero-centered。梯度平滑，没有跳跃。输入为负时完全失效。

2023-05-04 16:30:39 38

原创过拟合及欠拟合解决方案（面试）

这个性质与L2的平方项有关系，即越大的数，其平方越大，越小的数，比如小于1的数，其平方反而越小。权重矩阵 W 就会被设置为接近于 0 的值，相当于消除了很多神经元的影响，减少作用参数。，从而达到稀疏化的目的，也节省了存储的空间，因为在计算时，值为0的特征都可以不用存储了。L1 在确实需要稀疏化模型的场景下，才能发挥很好的作用并且效果远胜于 L2。随着海量数据处理的兴起，对于模型稀疏化的要求也随之出现。，因此，较小的权重在被惩罚后，就会变成0，较小的权重在被惩罚后，就会变成0，下调 batch_size;

2023-05-04 16:28:14 50

原创常见损失函数总结记录（面试）

交叉熵能。

2023-05-04 16:20:14 78

原创计算机综合基础知识记录（408、面试）

运算存储控制输入输出主存-缓存：用来缓解速度压力，完全由硬件实现，缓存是主存的副本主存-辅存：用来缓解容量压力，有操作系统和硬件配合实现，主存是缓存的副本主存：运行时数据辅存：暂时不用，永久保存RAM（随机存储器）：随机存取，存取时间与物理位置无关ROM（只读存储器）：断电内容保存。

2023-05-04 00:32:47 567 2

原创机器学习（ML）深度学习（DL）基础知识记录（面试）

支持向量机之所以成为目前最常用，效果最好的分类器之一，在于其优秀的泛化能力，这是是因为其本身的优化目标是结构化风险最小，而不是经验风险最小，因此，通过margin的概念，得到对数据分布的结构化描述，因此减低了对数据规模和数据分布的要求。原来的问题是一个凸优化问题，看到凸优化问题一般会想到，利用拉格朗日乘子法，将有约束的问题转换为无约束的问题，在将无约束的原问题转化为对偶问题(注意这里面的KKT条件)，进而利用SMO(序列最小优化)来解决这个对偶问题。ELU 的提出也解决了 ReLU 的问题。

2023-05-03 22:27:56 174

原创数据库基础知识记录（面试）

事务就是用户定义的一系列数据库操作，这些操作可以视为一个完成的逻辑处理工作单元，要么全部执行，要么全部不执行，是不可分割的工作单元。主要用来保证数据的完整性和一致性。

2023-05-03 22:14:33 54

原创国内外技术社区及个人博客分享

（不定期更新）

2023-05-03 22:01:34 64

weixin_57148141的博客