![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Attention
文章平均质量分 60
AI强仔
人工智能爱好者、机器人爱好者
展开
-
LSTM+Attention代码
Lstm与attention结合原创 2022-06-17 21:38:30 · 1233 阅读 · 1 评论 -
Longformer: The Long-Document Transformer
1 简介本文根据2020年《Longformer: The Long-Document Transformer》翻译总结的。以前的基于Transformer的模型,不能处理长序列,因为自注意力机制是序列长度的二次方。Longformer的注意力机制是 windowed local-context self-attention 和基于终端任务的global attention的结合。Local attention主要用来构建上下文表达,而global attention用来建立用于预测的全序列表达。2翻译 2022-01-08 23:33:05 · 416 阅读 · 0 评论 -
K-BERT:BERT+知识图谱
1 简介本文根据2019年《K-BERT:Enabling Language Representation with Knowledge Graph》翻译总结的。如标题所述就是BERT+知识图谱。本文贡献如下:1) 我们介绍了一个知识集成的语言表达模型,取名K-BERT。其兼容BERT,同时可以融合专有领域知识。解决了Heterogeneous Embedding Space(HES,多样化的Embedding空间)和Knowledge Noise (KN)问题。HES指文本中词语的embedding翻译 2021-10-01 10:20:53 · 1673 阅读 · 0 评论 -
机器翻译首次引入注意力机制-ALIGN AND TRANSLATE
1 简介本文首次在机器翻译中引入注意力机制。本文根据2016年《NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE》翻译总结。看文章的标题,可以知道该模型改善了align(源语句与目标翻译语句的对齐),引入注意力机制进行align。在本文之前,已经出现encoder-decoder神经网络进行机器翻译,不像以前传统的phrase-based translation system(2003),该神经网络尝试建立一个单独翻译 2021-01-17 23:18:11 · 531 阅读 · 0 评论 -
论文笔记Transformer:Attention is all you need
1 介绍主流的序列转换模型是基于复杂的循环或卷积神经网络,它们包括一个encoder和一个decoder。表现最好的模型也是用attention 机制连接encoder和decoder。我们提出了一个新的简单网络模型,即Transformer,该模型仅仅依靠attention机制,不用循环或卷积网络。实验结果显示该模型不仅质量很好,而且可以并行,需要较少的时间训练。循环网络模型主要是输入和输出序列的符号位置的因子计算。位置对齐计算时,需要序列的hidden state 、上一步的hidden state翻译 2020-05-25 15:34:48 · 680 阅读 · 0 评论 -
注意力Attention之学习总结
1. Attention 介绍目前绝大多数文献中出现的attention模型是附着在Encoder-Decoder框架下的,当然,其实attention模型可以看作一种通用的思想,本身并不依赖于Encoder-Decoder模型。本文首先讲解了Encoder-Decoder模型,接着讲解了带有注意力的Encoder-Decoder模型,最后更一般的陈述了attention模型理念。第二部分简单描述了几种不同的attention分类,包括soft attention、hard attention、glo原创 2020-05-12 16:12:11 · 924 阅读 · 0 评论