深度学习
weixin_56336619
这个作者很懒,什么都没留下…
展开
-
Adversarial Analysis of Natural Language Inference Systems
Adversarial Analysis of Natural Language Inference Systems自然语言推理系统的对抗分析摘要SNLI 和 MNLI 等大型自然语言推理 (NLI) 数据集的发布导致了该任务的完全神经系统的快速开发和改进。最近,经过大量预训练、基于 Transformer 的模型(如 BERT 和 MT-DNN)在这些数据集上已达到接近人类的性能。然而,这些标准数据集已被证明包含许多注释工件,允许模型使用简单易错的启发式方法进行快速理解,并且在测试集上仍然表现良好。翻译 2021-07-12 21:46:53 · 258 阅读 · 0 评论 -
Sparse transformer - 之Sparse attention 稀疏注意力
Sparse Transformer: 主要目的是减少传统Transformer 的时间复杂度和空间复杂度。通过top-k选择,将注意退化为稀疏注意。这样,保留最有助于引起注意的部分,并删除其他无关的信息。这种选择性方法在保存重要信息和消除噪声方面是有效的。注意力可以更多地集中在最有贡献的价值因素上。论文《Generating Long Sequences with Sparse Transformers》self-attention是O(n^2),因为对序列中任意两个位置的均建立起关联;节省显.原创 2021-06-10 18:57:06 · 4786 阅读 · 0 评论 -
三种位置编码Position Embedding
1.为什么要位置编码?处理序列问题对于传统CNN、RNN模型,因其处理机制模型本身已经具备很强的捕捉位置信息的特性,所以position embedding属于锦上添花使用attention机制取代cnn、rnn的如transformer、bert模型,本身是一个n*n不包含任何位置信息的词袋模型所以需要和字embedding 相加[1].基于绝对位置计数embedding = 0 , 1, ,2, 3缺点:序列没有上界 ,与字embedding合并 数值变化过大 干扰模型解决:使其原创 2021-06-05 18:45:51 · 6581 阅读 · 0 评论 -
深度学习入门 学习过程中的技巧——正则化
正则化目的:抑制模型过拟合;手段:权重衰减;Dropout;神经网络学习的目的:减少损失函数的值为损失函数加上权重的平方范数——训练过程中减少损失函数的值——减少权重的值目的:抑制权重过大L2范数:1/2å(W^2)å:控制正则化强度的超参数 设置的越大,对权重施加的惩罚越重对于所有权重,权值衰减的方法:为损失函数加上1/2å(w^2)在计算权重梯度的时候,(对损失函数求导寻找其下降最快的方向) 【1/2å(w^2)】‘ = åW即对结果加上了正则化的导数åWL2范数相当于各个元素的平原创 2021-05-25 11:11:56 · 80 阅读 · 0 评论 -
词嵌入(二)分布式表示
One-hot编码仅仅将词语符号化,丢失语义信息,且维度灾难。与one-hot编码表示技术相对应的是分布式表示分布式假说(Distributional Hypothesis):上下文中相似的词其语义也相似——词的语义由其上下文决定基于分布式假说的词表示方法,根据建模方式分为三类——基于矩阵的分布表示、基于聚类的分布表示、基于神经网络的分布表示1.基于矩阵的分布表示,构建词-上下文矩阵上下文:文档:即词-文档矩阵上下文的每个词:即词-词矩阵ngrams:即词-n元组矩阵矩阵中的每个元素为词原创 2021-04-30 16:35:53 · 727 阅读 · 1 评论 -
词嵌入(一)第一代预训练模型
不是初识 不断学习不断遗忘不断理解*词嵌入将语义相似的两个单词映射到两个独立但相似的实值向量,因此可以聚集在一起。——词嵌入的过程像一个聚类过程,产生很多相似向量簇将单词转换成实值向量的过程称为矢量化Word2Vec 两层神经网络——浅层神经网络输入是一个文本语料库,生成矢量作为输出。——输出的矢量称为单词的‘特征向量’。将语料库转换成可以被深层神经网络系统理解的数值数据。是大小为n * n的共词矩阵的分解(压缩)GloVe== Global vector 建立在Word2Vec基础Wor.原创 2021-04-28 00:01:36 · 329 阅读 · 0 评论 -
使用biLSTM_CRF完成词性标注任务
使用Pytorch框架中定义好的biLSTM_CRF模型和超参数,主要目的是加深学习印象;过去一段时间对序列标注任务学习的梳理,学习的过程中有不断修正之前的理解里谬误的地方;本文是对tutorial的示范例子的一次依葫芦画瓢,仅作为对之前学习内容的回顾总结和实践,最重要的还是先对知识和模型的学习!pytorch的官方文档学习过程做的笔记:对biLSTM_CRF模型的理解对pytorch官方文档里biLSTM_CRF模型的源码学习(一)整体理解(二)预定义方法、模型的初始化工作(三)前向传播原创 2021-04-27 17:45:27 · 912 阅读 · 1 评论 -
使用Keras封装好的RNN模型解决mnist数据集手写数字分类问题
代码参考来自于运行报错TypeError: __init__() missing 1 required positional argument: 'units'stackoverflow的解决方案`用units替代output_dim属性`model.add(SimpleRNN( # for batch_input_shape, if using tensorflow as the backend, we have to put None for the batch_size.原创 2021-04-27 10:36:56 · 517 阅读 · 0 评论 -
Keras实现CNN模型解决mnist数据集手写数字分类问题
keras提供了Tensorflow框架的接口恭喜我print出tensorflow框架下的第一个hello world全部内容手敲及注释import kerasimport matplotlib.pyplot as pltimport sslssl._create_default_https_context = ssl._create_unverified_context #全局取消证书验证# (X_train,Y_train),(X_test,y_test) = keras.da原创 2021-04-26 20:51:56 · 242 阅读 · 0 评论 -
pytorch中biLSTM_CRF模型源码学习(三):前向传播中计算forward_score和gold_score
上一节地址:pytorch中biLSTM_CRF模型源码学习(二):预定义方法 和 模型的初始化工作回顾一下biLSTM_CRF的逻辑:在一个epoch的训练中流程: 1.初始化梯度为0 2.构建张量 3.前向传播 4.反向传播 更新权重3.前向传播中:biLSTM提取输入序列的特征,输出feats作为发射概率分布计算前向得分——当前转移概率分布和发射概率分布feats下模型的得分最高的路径的得分计算标签序列的真实得分计算得分的差值作为损失函数值loss4.反向传播中loss原创 2021-04-25 20:19:40 · 676 阅读 · 0 评论 -
pytorch中biLSTM_CRF模型源码学习(二):预定义方法 和 模型的初始化工作
上一节地址:解读pytorch中的biLSTM_CRF源码(一)本节目录预定义的helper函数class biLSTM_CRF中的部分成员方法__init__,init_hidden,_get_lstm_features预定义的helper函数1.to_scalardef to_scalar(var): # 将变量转化为标量 # returns a python float return var.view(-1).data.tolist()[0]变量将张量对象、梯度及创.原创 2021-04-25 19:18:57 · 293 阅读 · 0 评论 -
解读pytorch中的biLSTM_CRF源码(一)
biLSTM_CRF的理解可以看之前的这篇博客pytorch的英文文档biLSTM_CRF的是训练出一个模型完成序列标注任务——给定任意输入序列和标签集,输出标注序列。这个模型实现将输入序列映射到输出序列——在nlp的词性标注POS-tagging任务中,是将给定句子(词序列)映射为大小相同的词性标注序列。这个模型需要A转移概率分布 隐藏状态之间的转移 [词性][词性]B发射概率分布 从观测状态转移到隐状态的概率 [词性][单词]显然,biLSTM_CRF模型和hmm模型的区别之一就是,h原创 2021-04-21 15:05:44 · 774 阅读 · 0 评论 -
循环神经网络的隐藏状态——理解注意力机制 Attention 中的Q、K、V (查询Query、键值Key、值项Value)
前言:依然借用机器翻译任务作为例子来理解这些概念注意力机制Attention 是 基于Encoder-Decoder框架的encoder-decoder本质是两个循环神经网络(‘隐藏状态’ 或 ‘记忆细胞’记录当前时间步的信息,并传递到下一时间步),做的事情就是将输入序列映射到输出序列。也即是机器翻译任务中的seq2seq模型。encoder-decoder本质是两个循环神经网络(隐藏状态/记忆细胞记录当前时间步的信息)下面是学习attention机制过程中保存的笔记:一个注意力模型原创 2021-04-20 17:20:10 · 8338 阅读 · 0 评论