![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
论文
文章平均质量分 87
*Lisen
这个作者很懒,什么都没留下…
展开
-
《Relation Memory Argument Language Model》论文笔记
先看一些例子:论文相关细节实体提取方法:采用《Ratinov and Roth, 2009; Nadeau and Sekine, 2007》提取。关系检索方法:提取之后进行关系检索,因为简单,所以关系三元组的检索采用关键词检索。实体打分采用tf-idf 。Top-K分数的实体被用来检索关系。这里的实体都是从看到的文本中提取的。但是训练的时候是提前提取好的,然后检索。评测的时候,采用Dynamic OpenIE(关系不光是从之前看到的文章里面提取,也可以从训练集提取,没跑一个batch检索原创 2022-03-21 10:43:21 · 1124 阅读 · 0 评论 -
《GNN-LM: LANGUAGE MODELING BASED ON GLOBAL CONTEXTS VIA GNN》论文笔记
Openreview:三位评委得分分别为6, 8, 10,单项满分8分:方法独特,对语言模型有很大的改进,取得sofa。但有些实验做的不够,比如选择的token数量;10分:非常好,ppl显著降低,利用外部知识促进语言模型,方法独特;6分:只比较WikiText-103数据,其他两个数据集没比较,实验很多细节没有公布,复现性差。先看个例子:GNN构造:首先对训练集所有token的隐层向量进行缓存节点:2种类型节点,当前上下文的token和从外部检索得到的token边:2种类型原创 2022-03-11 18:00:34 · 1677 阅读 · 0 评论 -
语义相似度、句向量生成超强模型之SBERT《Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks》
1 前言随着18年底Bert的面世,NLP进入了预训练模型的时代。各大预训练模型如GPT-2,Robert,XLNet,Transformer-XL,Albert,T5等等层数不穷。但是几乎大部分的这些模型均不适合语义相似度搜索,也不适合非监督任务,比如聚类。而解决聚类和语义搜索的一种常见方法是将每个句子映射到一个向量空间,使得语义相似的句子很接近。说到这,可能有的人会尝试将整个句子输入预训练模型中,得到该句的句向量,然后作为句子的句向量表示。但是这样得到的句向量真的好吗?在论文《Sentence-BER原创 2020-05-09 14:20:23 · 25769 阅读 · 17 评论 -
论文笔记 -《All NLP Tasks Are Generation Tasks: A General Pre-training Framework》
1、摘要 随着NLP技术的发展,越来越多的新的预训练架构不断刷榜,包括自回归模型(例如GPT)、自动编码模型(例如 BERT)和编码器-解码器模型(例如 T5)。自然语言处理任务在本质可以分为分类、无条件生成和条件生成。但是,目前没有一个预训练框架能够很好地完成所有任务。而在本文中,提出了一种通用语言模型(General Language Model,GLM)来解决这个问题。GLM模型结构有三个主要优点: (1)用一个模型就能在它分类、无条件生成和条件生成任务上表现良好; (2)改进了预训练-微调一致性原创 2021-04-18 16:57:02 · 973 阅读 · 0 评论 -
论文笔记 -《ERNIE-DOC: The Retrospective Long-Document Modeling Transformer》
1、摘要Transformer不适合处理长文件输入,因为,随着文本长度的增加,消耗的内存和时间是N2的指数级增加。也有很多学者,通过截断一个长文档或应用稀疏注意机制,在一定程度上可以解决上下文碎片问题,但起到的作用有限。在这篇文章中,作者提出了一个预训练语言模型 ERNIE-DOC,是一个基于Recurrence Transformers(Dai et al., 2019) 的文档级语言预训练模型。本模型用了两种技术:回溯式feed机制和增强的循环机制,使模型 具有更长的有效上下文长度,以获取整个文档的原创 2021-03-14 12:03:23 · 4346 阅读 · 1 评论 -
论文笔记 -《Segatron: Segment-Aware Transformer for Language Modeling and Understanding》
1、摘要Transformer对于序列建模是非常强大的。几乎所有最先进的语言模型和预先训练的语言模型都基于 Transformer 体系结构。然而,它仅仅使用标记位置索引区分顺序标记。论文中作者提出一个假设:更好的上下文表示是不是可以从Transformer中产生更丰富的位置信息?为了验证这一点,作者提出了一种分段感知(Segatron)Transformer,将原来的Token位置编码替换为对应段落、句子和Token的联合位置编码。本文首先在 Transformer-XL 中引入了Segatron-aw原创 2021-03-09 17:31:03 · 335 阅读 · 0 评论 -
论文笔记 -《Revisiting Few-sample BERT Fine-tuning》
1、摘要 这篇论文主要研究了数据集上如何有效地使用 BERT finetune问题,首先,论文提到在BERTADAM 优化器中遗漏了梯度偏差校正,不利于模型的finetune,尤其是在小数据集上,训练初期,模型会持续震荡,进而会降低整个训练过程的效率,减慢收敛的速度,导致微调不稳定性。其次,BERT 网络的某些部分为微调提供了一个不利的训练起点,并且通过简单地重新初始化这些层可以加速学习并提高性能。最后,提到了训练时间的影响,并观察到常用的方法往往没有分配足够的时间进行训练,就是没有训练完全,需要增大训原创 2020-09-27 15:55:42 · 1253 阅读 · 0 评论 -
论文笔记 -《Self-Attention Attribution: Interpreting Information Interactions Inside Transformer》
1、摘要 基于 transformer 的模型的巨大成功得益于强大的多头自我注意机制,该机制从输入中学习token依赖并编码语境信息。先前的工作主要致力于针对具有不同显著性度量的单个输入特性的贡献模型决策,但是他们没有解释这些输入特性如何相互作用以达到预测。这篇论文就提出了一种用于解释Transformer内部信息交互的自注意属性算法ATTATTR。文章以 BERT 模型为例进行了以下实验: (1)提取各层最显著的依赖关系,构造属性图,揭示Transformer内部的层次交互; (2)用自我注意原创 2020-08-27 16:07:19 · 2040 阅读 · 3 评论 -
论文笔记 -《ERNIE-GEN: An Enhanced Multi-Flow Pre-training and Fine-tuning Framework for Natural...》
1、摘要 目前自然语言生成的预训工作对于下游任务的偏差问题关注不够。 为了解决这个问题,我们提出了一个增强的多流序列来排列预训练和微调框架 ERNIE-GEN,它通过生成机制和噪声感知生成方法来弥补训练和推理之间的差异。 为了使代更接近人类的书写模式,该框架引入了一个跨越代流,训练模型连续预测语义完整跨度,而不是逐字预测。ERNIE-GEN与现有的预训练方法不同,它将多粒度目标采样结合到预训练数据中,增强了编解码器之间的相关性。 实验结果表明,ERNIE-GEN 在一系列语言生成任务中,包括抽象概括(G原创 2020-05-14 18:48:01 · 2007 阅读 · 0 评论 -
论文笔记 -《Align, Mask and Select: A Simple Method for Incorporating Commonsense Knowledge into ...》
本论文主要做了一下几件事:将常识知识加入预训练;提出了一种align,mask,select(AMS)方法,可自动构造了一个常识训练集;CommonsenseQA 、 Winograd Schema Challenge以及 GLUE任务的几个句子分类和推理任务上取得sota。AMS方法:首先,从ConceptNet中挑选一些三元组;(606,564 个)a.非英文去掉;b....原创 2020-04-12 23:21:56 · 729 阅读 · 4 评论 -
论文笔记 -《REALM: Retrieval-Augmented Language Model Pre-Training》
1、前言2019年可以说是语言模型快速发展的一年,BERT、XLNET、Albert等等模型不断刷新各个NLP榜单。在NLP榜单中比较引人注目的应该属于阅读理解型的任务,例如SQuAD等等。以SQuAD为例,模型需要阅读一段给定的文本,然后回答几个问题,问题如果存在答案,答案一定可以在文章中找到。所以说虽然叫阅读理解,但其实和序列标注有点相像,是在给定序列中标出答案段。而这篇论文针对的问题叫开放...原创 2020-03-06 16:30:07 · 3215 阅读 · 9 评论 -
论文笔记 -《Dense Passage Retrieval for Open-Domain Question Answering》
1、摘要 开放域问题回答依赖于高效的文本检索来选择候选段落,传统的稀疏向量空间模型用的较多的有TF-IDF 或 BM25算法,但这些算法仅仅是在词的匹配上进行检索,并未考虑语义的相关性,有很大的局限性。因此,论文提出了一种新的算法来检索候选段落,称之为:DPR算法。DPR算法在 top-20段落文本检索准确率方面比 Lucene-BM25系统高出9%-19% ,这非常有利于后续的QA任务的性能表现。2、解决问题 提高QA领域中问题段落检索准确性3、Dense Passage Retriever原创 2020-07-19 19:44:05 · 7494 阅读 · 0 评论 -
论文笔记 -《A Mixture of h-1 Heads is Better than h Heads》
摘要 多头注意神经结构已经在各种自然语言处理任务上取得了最先进的结果。 事实证明,它们是过度参数化的,注意力头可以被修剪而不会造成显著的性能损失。 论文提出:根据输入的不同,选择不同的header,提出了专注其中几个header的专家混合模型(MAE)。 MAE使用block coordinate descent (BCD:块协同下降算法)进行训练,该算法交替更新(1)选择header的参数和(2)header的参数。 机器翻译和语言建模实验表明,MAE 在这两个任务上都优于基线模型。 特别是在 WMT原创 2020-06-15 01:08:56 · 759 阅读 · 0 评论