不负韶华ღ-CSDN博客

原创自回归（AR）模型的功率谱估计（实现）

上一部分介绍了AR模型的理论知识，这一部分将介绍AR模型的各种估计方法。点击，快速查看理论知识。

2022-11-30 18:47:32 2847 1

假定随机信号 x(n)x(n)x(n) 是由白噪声 w(n)w(n)w(n) 激励某一确定系统的响应。如下图所示：随机信号 x(n)x(n)x(n)、白噪声 w(n)w(n)w(n)和系统的冲击响应 h(n)h(n)h(n) 之间的关系为：x(n)=h(n)∗w(n)=∑k=−∞+∞h(k)w(n−k)x(n)=h(n)*w(n)=\sum^{+\infin}_{k=-\infin}h(k)w(n-k)x(n)=h(n)∗w(n)=k=−∞∑+∞h(k)w(n−k)其中，∗*∗ 为卷积操作。如果确定白噪

2022-11-25 23:24:42 1987

原创池化（Pooling）

在图像处理中，由于图像中存在较多冗余信息，可用某一区域子块的统计信息（如最大值或均值等）来刻画该区域中所有像素点呈现的空间分布模式，以替代区域子块中所有像素点取值，这就是卷积神经网络中池化(pooling)操作。池化操作对卷积结果特征图进行约减，实现了下采样，同时保留了特征图中主要信息。比如：当识别一张图像是否是人脸时，我们需要知道人脸左边有一只眼睛，右边也有一只眼睛，而不需要知道眼睛的精确位置，这时候通过池化某一片区域的像素点来得到总体统计特征会显得很有用。

2022-10-24 09:56:21 8563

原创卷积（Convolution）（三）

传统的卷积神经网络在计算机视觉领域已经取得了非常好的成绩，但是依然存在一个待改进的问题—计算量大。当卷积神经网络应用到实际工业场景时，模型的参数量和计算量都是十分重要的指标，较小的模型可以高效地进行分布式训练，减小模型更新开销，降低平台体积功耗存储和计算能力的限制，方便部署在移动端。因此，为了更好地实现这个需求，在卷积运算的基础上，学者们提出了更为高效的可分离卷积。

2022-10-24 09:43:11 1218

原创卷积（Convolution）（二）

通常情况下，对图像进行卷积运算时，经过多层的卷积运算后，输出图像的尺寸会变得很小，即图像被约减。而对于某些特定的任务（比如：图像分割、GAN），我们需要将图像恢复到原来的尺寸再进行进一步的计算。这个恢复图像尺寸，实现图像由小分辨率到大分辨率映射的操作，叫做上采样（Upsample），如下图所示。上采样有多种方式，常见的包括：最近邻插值（Nearest neighbor interpolation）、双线性插值（Bi-Linear interpolation）等，但是这些上采样方法都是基于人们的先验经验来设计

2022-10-24 09:22:33 1851

原创卷积（Convolution）（一）

在全连接网络中，一张图片上的所有像素点会被展开成一个1维向量输入网络，如下图所示，28 x 28的输入数据被展开成为784 x 1 的数据作为输入。这样往往会存在如下两个问题：1、输入数据的空间信息被丢失。空间上相邻的像素点往往具有相似的RGB值，RGB的各个通道之间的数据通常密切相关，但是转化成1维向量时，这些信息被丢失。如下图所示，空间位置相邻的两个点A和B，转化成1维向量后并没有体现出他们之间的空间关联性。2、模型参数过多，容易发生过拟合。由于每个像素点都要跟所有输出的神经元相连接。当图

2022-10-24 08:29:30 1507

原创 TinyBERT: Distilling BERT for Natural Language Understanding（2019-9-23）

预训练模型的提出，比如 BERT，显著的提升了很多自然语言处理任务的表现，它的强大是毫无疑问的。但是他们普遍存在参数过多、模型庞大、推理时间过长、计算昂贵等问题，因此很难落地到实际的产业应用中。TinyBERT是由华中科技大学和华为诺亚方舟实验室联合提出的一种针对transformer-based模型的知识蒸馏方法，以BERT为例对大型预训练模型进行研究。四层结构的TinyBERT4在 GLUE benchmark 上可以达到BERTbase。

2022-10-24 07:52:25 650

原创 DynaBERT: Dynamic BERT with Adaptive Width and Depth（2020-4-8）

预训练模型，如BERT，在自然语言处理任务中的强大之处是毫无疑问，但是由于模型参数量较多、模型过大等问题，在部署方面对设备的运算速度和内存大小都有着极高的要求。因此，面对实际产业应用时，比如将模型部署到手机上时，就需要对模型进行瘦身压缩。近年的模型压缩方式基本上都是将大型的BERT网络压缩到一个固定的小尺寸网络。而实际工作中，不同的任务对推理速度和精度的要求不同，有的任务可能需要四层的压缩网络而有的任务会需要六层的压缩网络。

2022-10-24 07:31:33 285

原创模型压缩（Compress）

理论上来说，深度神经网络模型越深，非线性程度也就越大，相应的对现实问题的表达能力越强，但相应的代价是，训练成本和模型大小的增加。同时，在部署时，大模型预测速度较低且需要更好的硬件支持。但随着深度学习越来越多的参与到产业中，很多情况下，需要将模型在手机端、IoT端部署，这种部署环境受到能耗和设备体积的限制，端侧硬件的计算能力和存储能力相对较弱，突出的诉求主要体现在以下三点：首先是，比如像人脸闸机、人脸解锁手机等应用，对响应速度比较敏感，需要做到实时响应。其次是。

2022-10-24 07:11:26 622

原创 tf.GradientTape 函数

即计算某个计算相对于某些输入（通常是 tf.Variable）的梯度。TensorFlow 随后会该使用条带通过反向模式微分计算“记录的”计算的梯度。记录一些运算后，使用 GradientTape.gradient(target, sources) 计算某个目标（通常是损失）相对于某个源（通常是模型变量）的梯度。梯度带在关于源的传递方式上非常灵活，可以接受列表或字典的任何嵌套组合，并以相同的方式返回梯度结构。如果为True，则可以调用多次。在大多数情况下，需要计算相对于模型的可训练变量的梯度。

2022-10-19 10:14:03 1448

原创归一化（Normalization）

归一化是一种数据处理方式，能将数据经过处理后限制在某个固定范围内。归一化存在两种形式，一种是在通常情况下，将数处理为 [0, 1] 之间的小数，其目的是为了在随后的数据处理过程中更便捷。例如，在图像处理中，就会将图像从 [0, 255] 归一化到 [0, 1]之间，这样既不会改变图像本身的信息储存，又可加速后续的网络处理。其他情况下，也可将数据处理到 [-1, 1] 之间，或其他的固定范围内。另一种是通过归一化将有量纲表达式变成无量纲表达式。那么什么是量纲，又为什么需要将有量纲转化为无量纲呢？

2022-10-17 16:57:51 30922

原创模型调优（Turning）（二）

假设有一天热爱绘画的你决定去户外写生，你来到一片山坡上，极目远去，心旷神怡。头顶一片蔚蓝，脚踩一席草绿，远处山川连绵，眼前花草送香，暖阳含羞云后，轻风拂动衣襟，鸟啼虫鸣入耳，美景丹青共卷。你集中精神，拿起画笔将蓝天、白云、青草等等这些元素，按照所思所想纷纷绘入画板。在绘画的过程中，你会持续地关注你构思到画板上的元素（比如蓝天，白云），而不会太多关注那些其他的元素，比如风，虫鸣，阳光等等。即你的精神是聚焦在你关心的那些事物上，这其实就是注意力的体现，这种有意识的聚焦被称为聚焦式注意力（Focus Attent

2022-10-17 16:30:14 496

原创模型调优（Tuning）（一）

学习率是训练神经网络的重要超参数之一，它代表在每一次迭代中梯度向损失函数最优解移动的步长，通常用 η 表示。它的大小决定网络学习速度的快慢。在网络训练过程中，模型通过样本数据给出预测值，计算代价函数并通过反向传播来调整参数。重复上述过程，使得模型参数逐步趋于最优解从而获得最优模型。在这个过程中，学习率负责控制每一步参数更新的步长。合适的学习率可以使代价函数以合适的速度收敛到最小值。根据梯度更新公式：θ=θ−η∂∂θJ(θ)\theta = \theta - \eta\displaystyle\frac{\p

2022-10-17 12:23:34 950

原创激活函数（Activation）

激活函数是人工神经网络的一个极其重要的特征；激活函数决定一个神经元是否应该被激活，激活代表神经元接收的信息与给定的信息有关；激活函数对输入信息进行非线性变换，然后将变换后的输出信息作为输入信息传给下一层神经元。

2022-10-17 09:22:30 2043

原创损失函数（Loss）

如果我们定义了一个机器学习模型，比如一个三层的神经网络，那么就需要使得这个模型能够尽可能拟合所提供的训练数据。但是我们如何是否足够呢？那就需要使用相应的指标来评价它的拟合程度，所使用到的函数就称为(Loss Function)，当损失函数值下降，我们就认为模型在拟合的路上又前进了一步。最终模型对训练数据集拟合的最好的情况是在损失函数值最小的时候，在指定数据集上时，为损失函数的平均值最小的时候。

2022-10-17 07:51:02 2128

原创优化器（Optimizer）（二）

为了抑制SGD的震荡，SGD-M认为梯度下降过程可以加入惯性。可以简单理解为：当我们将一个小球从山上滚下来时，没有阻力的话，它的动量会越来越大，但是如果遇到了阻力，速度就会变小。SGD-M全称是SGD with momentum，在SGD基础上引入了一阶动量：vt=γvt−1+η∇J(θ)v_t=\gamma v_{t-1}+\eta \nabla J(\theta)vt=γvt−1+η∇J(θ)SGD-M参数更新公式如下，其中 ηηη 是学习率，∇J(θ)∇J(θ)∇J(θ) 是当前参数的梯度：θ=θ

2022-10-16 18:54:01 1236

原创优化器（Optimizer）（一）

如果我们定义了一个机器学习模型，比如一个三层的神经网络，那么就需要使得这个模型能够尽可能拟合所提供的训练数据。但是我们如何是否足够呢？那就需要使用相应的指标来评价它的拟合程度，所使用到的函数就称为(Loss Function)，当损失函数值下降，我们就认为模型在拟合的路上又前进了一步。最终模型对训练数据集拟合的最好的情况是在损失函数值最小的时候，在指定数据集上时，为损失函数的平均值最小的时候。

2022-10-16 15:37:17 1867

原创评估指标（Metric）（四）

BLEU算法能够比较好地计算生成序列x的字词是否在参考序列中出现过，但是其并没有关注参考序列中的字词是否在生成序列出现过。中的 N 元组合词是否在参考序列中出现，其计算结果更偏好短的生成序列，即生成序列。构造不同长度的 N 元组合词，这样便可以获得不同长度组合词的精度，比如。BLEU算法通过计算不同长度的N元组合的精度。前边反复提到一个概念–N 元组合词，我们可以根据生成序列。，以及相应的译文参考序列。，且。为 N 元组合词。

2022-10-16 10:42:26 539

原创评估指标（Metric）（三）

中文翻译为，是信息论中的一个概念，其可以用来衡量一个随机变量的不确定性，也可以用来衡量模型训练的好坏程度。通常情况下，一个随机变量的Perplexity数值越高，代表其不确定性也越高；一个模型推理时的Perplexity数值越高，代表模型表现越差，反之亦然。

2022-10-16 10:23:37 622

原创评估指标（Metric）（二）

把生成的图片 x 输入Inception V3模型中，将输出 1000 维(ImageNet有1000类)的向量 y ，向量每个维度的值表示图片属于某类的概率。首先将Inception Net-V3模型的输出层替换为最后一个池化层的激活函数的输出值，把生成器生成的图片和真实图片送到模型中，得到2048个激活特征。：如果一个模型能生成足够多样的图片，那么它生成的图片在各个类别中的分布应该是平均的，假设生成了 10000 张图片，那么最理想的情况是，1000 类中每类生成了 10 张。，以及真实图像的均值。

2022-10-16 09:47:40 747

原创评估指标（Metric）（一）

也称为真阳性率）是指实际为阳性的样本中，判断为阳性的比例（例如真正有生病的人中，被医院判断为有生病者的比例），计算方式是真阳性除以真阳性+假阴性（实际为阳性，但判断为阴性）的比值（能将实际患病的病例正确地判断为患病的能力，即患者被判为阳性的概率）。，也称为真阴性率）是指实际为阴性的样本中，判断为阴性的比例（例如真正未生病的人中，被医院判断为未生病者的比例），计算方式是真阴性除以真阴性+假阳性（实际为阴性，但判断为阳性）的比值（能正确判断实际未患病的病例的能力，即试验结果为阴性的比例）。

2022-10-16 09:17:39 1231

原创向量距离与相似度（Distance and Similarity）

假设当前有两个n维向量x和y，可以通过两个向量之间的距离或者相似度来判定这两个向量的相近程度，显然两个向量之间距离越小，相似度越高；两个向量之间距离越大，相似度越低。

2022-10-16 08:29:44 727

原创 CANINE: Pre-training an Efficient Tokenization-Free Encoder for Language Representation（2021-3-11）

管道化的NLP系统大部分被端到端的神经模型所取代，然而，几乎所有常用的模型都需要一个显示的分词步骤。尽管最近基于数据衍生的子词词典的分词器比手工设计的分词器要稳固，但是这些分词器并不适合所有的语言，而且使用固定的词汇会限制模型的能力。基于这些问题，提出了，神经编码器，没有显式的进行分词和也没有词汇表，在与训练中直接处理字符序列以及有选择的使用子词作为软感应偏置（soft inductive bias）。

2022-10-15 22:55:28 262

原创 BORT：Optimal Subarchitecture Extraction For BERT（2020-10-20）

通过应用最新的，提取了BERT体系结构参数的最优子集。这个最优子集（称为BORT）比原来的模型小，其中网络结构大小为原来BERT-large 结构大小的15%，有效大小（没有计算嵌入层）为5.5%。BORT预训练了288个GPU小时，这是预训练性能最高的BERT参数化结构变体RoBERTa-large所需时间的1.2% ，是在相同硬件上训练BERT-large所需GPU小时的世界纪录的33%左右。

2022-10-15 13:33:15 416

原创 MPNet: Masked and Permuted Pre-training for Language Understanding（2020-4-20）

BERT采用掩模语言建模(MLM)进行预训练，是最成功的预训练模型之一。由于BERT忽略了预测的 token 之间的依赖关系，XLNet引入了排列语言建模(PLM)进行预训练，以解决这个问题。然而，XLNet并没有利用一个句子的全部位置信息，因此在预训练和微调之间存在位置差异。MPNet，一种新的预训练方法，既继承了BERT和XLNet的优点，又避免了它们的局限性。

2022-10-14 19:17:15 726

原创 MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices（2020-4-6）

近年来，自然语言处理(NLP)通过使用具有数亿个参数的巨大预训练模型取得了巨大的成功。然而，这些模型受到沉重的模型尺寸和高延迟的影响，因此无法部署到资源有限的移动设备上。因此这里提出了MobileBERT来压缩和加速流行的BERT模型。与原始的BERT一样，MobileBERT是任务不可知论的，也就是说，它可以通过简单的微调通用地应用于各种下游NLP任务。基本上，MobileBERT是BERTLARGE的精简版，同时配备了瓶颈结构和精心设计的在自注意和前馈网络之间的平衡。

2022-10-14 13:26:11 402

原创 SqueezeBERT: What can computer vision teach NLP about efficient neural networks?（2020-6-19）

人类每天要读写数千亿条信息。此外，由于大型数据集、大型计算系统和更好的神经网络模型的可用性，自然语言处理(NLP)技术在理解、校对和组织这些消息方面取得了重大进展。因此，在无数的应用程序中部署NLP以帮助网络用户、社交网络和企业是一个重要的机会。特别的，智能手机和其他移动设备是大规模部署NLP模型的关键平台。然而，如今的高精度NLP神经网络模型，如BERT和RoBERTa，计算成本极高，在Pixel 3智能手机上，基于BERT的文本片段分类需要1.7秒。在这项工作中，观察到。

2022-10-14 09:13:57 341

原创 RoFormer: Enhanced Transformer with Rotary Position Embedding（2021-4-20）

位置编码最近的Transformer模型中显的非常有效，它为位于序列不同位置的元素之间的依赖关系建模提供了有价值的监督。通过研究了不同集成位置编码信息的方法在基于transformer语言模型的学习过程的作用，提出了一种新的方法–旋转位置编码（Rotary Position Embedding，RoPE）。具体而言，RoPE将绝对位置编码在一个旋转矩阵中，与此同时，在self-attention公式中包含了显式的相对位置依赖。尤其是，RoPE可以让有价值的属性包含在相对位置编码中，比如序列长度的灵活性、随着

2022-10-13 22:17:15 1626 1

GLUE数据集GLUE数据集

glue基准任务用的数据集

循环神经网络测试用数据集

空空如也