TowardsDataScience 博客中文翻译 2020（二百八十四）-CSDN博客

原文：TowardsDataScience Blog

协议：CC BY-NC-SA 4.0

#NLP365 的第 119 天:NLP 论文摘要——科学出版物的论据注释文集

原文：https://towardsdatascience.com/day-119-nlp-papers-summary-an-argument-annotated-corpus-of-scientific-publications-d7b9e2ea1097?source=collection_archive---------48-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

阅读和理解研究论文就像拼凑一个未解之谜。汉斯-彼得·高斯特在 Unsplash 上拍摄的照片。

内线艾 NLP365

NLP 论文摘要是我总结 NLP 研究论文要点的系列文章

项目#NLP365 (+1)是我在 2020 年每天记录我的 NLP 学习旅程的地方。在这里，你可以随意查看我在过去的 262 天里学到了什么。在本文的最后，你可以找到以前的论文摘要，按自然语言处理领域分类:)

今天的 NLP 论文是 一个带论据注释的科学出版物语料库 。以下是研究论文的要点。

目标和贡献

使用论证组件和关系注释扩展了 Dr. Inventor 语料库，并进行了注释研究。这里的目标是理解科学文本中的不同论点，以及它们是如何联系在一起的。我们对带注释的论证进行了分析，并探索了存在于科学写作中的论证之间的关系。这些贡献如下:

为涵盖不同研究领域的科技文本提出了一个通用的议论文注释方案
具有论证组件和关系注释的扩展的 Dr. Inventor 语料库
对语料库进行了信息论分析

注释方案

有许多论证的理论框架，我们最初使用图尔敏模型，因为它简单并且与人工智能和论证挖掘相关。图尔敏模式有 6 种论证成分:主张、数据、保证、支持、限定和反驳。然而，在最初的注释之后，我们意识到并不是所有的组件都存在。因此，我们将注释方案简化为以下三个论证部分:

自己的主张。与作者作品相关的论证性陈述
背景权利要求。与作者作品相关的论述性陈述
数据组件。支持或反对某一主张的事实。这包括参考资料和带有例子的事实

有了这些论证成分集，我们引入了以下三种关系类型:

支撑。如果一个组件的实际准确性随着另一个组件的增加而增加，则这种关系在两个组件之间成立
与相矛盾。如果一个组件的实际准确性随着另一个组件而降低，则这种关系在两个组件之间成立
语义相同。这种关系捕获语义相同的声明或数据组件。这类似于自变量共指和/或事件共指

注释研究

我们对 Dr. Inventor 语料库进行了注释研究，并扩展了数据集。Dr. Inventor 语料库有四层带有子标签的修辞注释，如下所示:

话语角色
引用目的
主观方面
总结相关性

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

4 个不同的注释层[1]

注释过程由一名专家和三名非专家注释者组成。注释者在校准阶段接受培训，所有注释者一起注释一个出版物。我们为每次迭代计算注释者间的一致(IAA ),并讨论任何分歧。下图展示了跨 5 次迭代的 IAA 分数进展。有严格和软弱两个版本。严格版本要求实体在跨度和类型上完全匹配，关系在组件、方向和关系类型上完全匹配。弱版本要求类型匹配，范围重叠。协议(IAA)如预期的那样随着迭代而增加。此外，关系上的一致程度较低，因为这通常更加主观，更不用说关系上的一致会受到组件上的一致的影响。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

注释者间协议(IAA) [1]

语料库分析

辩论注释分析

表 2 展示了在 Dr. Inventor 语料库中每个论证成分和关系的汇总统计。大约有。自有主张的数量是背景主张的 2 倍，这是意料之中的，因为语料库由原创研究论文组成。此外，数据组件只有索赔的一半多。这可能是因为并非所有索赔都得到支持，或者索赔可以得到其他索赔的支持。自然，有许多支持关系，因为作者倾向于通过用数据组件或其他声明来支持它来加强他们的声明。表 3 展示了论证部分的长度。自有和背景索赔的长度相似，而数据部分的长度是一半。这可以归因于这样一个事实，即在计算机科学中，解释往往是简短的，而且大多数情况下，作者只会参考表格和数字来支持。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

发明家博士语料库统计[1]

科学论文的论证结构遵循有向无环图(DAG ),其中论证部分是节点，边是关系。下面的表 4 展示了科学论文论证结构的 DAG 的图形分析。有 27 件独立索赔和 39 件无证据的索赔。最大入度显示了节点之间的最大连接数。平均 6 个告诉我们，有许多索赔提供了强有力的支持证据。我们还运行了 PageRank 算法来识别最重要的声明，并在表 5 中列出了一些示例。结果显示，大多数排名最高的索赔来自背景索赔，告诉我们，在计算机图形学论文中，他们倾向于把更多的重点放在他们的工作动机的研究差距，而不是实证结果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

左图:基于图表的论证结构分析|右图:主张类型的示例以及与这些主张相关的句子[1]

与其他修辞方面的联系

我们的新论证组件与 Inventor 博士语料库中的现有注释有多好的联系？在下面的表 6 中，我们展示了归一化互信息(NMI ),它测量五个标注层之间的共享信息量。我们展示了所有注释对的 NMI 分数:

变元组件(AC)
话语角色
主观方面
相关概述
引用上下文(CC)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

标准化互信息(NMI) [1]

AC 和 DR 之间有一个很强的 NMI 分数，这是有意义的，因为背景声明可能会在话语角色背景部分找到。另一个高 NMI 得分介于 AC 和 CC 之间。这是有意义的，因为在背景技术权利要求中经常引用引文。

结论和未来工作

我们创建了第一个带论证注释的科学论文语料库，并提供了语料库和论证分析的关键摘要统计数据。潜在的未来工作可能涉及扩展其他领域论文的语料库，并进一步开发分析科学写作的模型。

来源:

[1]劳舍尔，a .，格拉瓦什，g .和庞泽托，S.P .，2018 年 11 月。附有论证注释的科学出版物文集。在关于论点挖掘的第五次研讨会的会议录(第 40-46 页)。

原载于 2020 年 4 月 28 日【https://ryanong.co.uk】。

特征提取/基于特征的情感分析

总结

其他人

#NLP365 的第 120 天:NLP 论文摘要——摘要重要性的简单理论模型

原文：https://towardsdatascience.com/day-120-of-nlp365-nlp-papers-summary-a-simple-theoretical-model-of-importance-for-summarization-843ddbbcb9b?source=collection_archive---------65-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

阅读和理解研究论文就像拼凑一个未解之谜。汉斯-彼得·高斯特在 Unsplash 上拍摄的照片。

内线艾 NLP365

NLP 论文摘要是我总结 NLP 研究论文要点的系列文章

今天的 NLP 论文是 对于总结 重要性的简单理论模型。以下是研究论文的要点。

目标和贡献

提出了一个简单的理论模型来捕捉总结中的信息重要性。该模型捕捉冗余、相关性和信息量，这三者都有助于信息在总结中的重要性。我们展示了如何有人可以使用这个框架来指导和改善总结系统。这些贡献如下:

定义总结中的三个关键概念:冗余、相关性和信息量
使用总结中的三个关键概念来阐述重要性概念，以及如何解释结果
表明我们的理论模型对总结的重要性与人类总结有很好的相关性，使其对指导未来的实证工作有用

总体框架

语义单位被认为是一小段信息。(\omega)表示所有可能的语义单位。文本输入 X 被认为是由许多语义单元组成的，因此可以用概率分布(\mathbb{P}_X) over (\Omega)来表示。(\mathbb{P}_X)可以简单地指语义单位在整个文本中的频率分布。(\mathbb{P}_X(w_i))可以解释为语义单位(w_i)出现在文本 X 中的概率，也可以解释为(w_i)对文本 X 的整体意义的贡献。

裁员

摘要中呈现的信息量由熵来度量，如下所示:

(H(S)=-\ sum _ { w _ I } \ mathbb { P } _ S(w _ I)x log(\ mathbb { P } _ S(w _ I)))

熵测量覆盖水平，并且当摘要中的每个语义单元仅出现一次时，H(S)最大化，因此冗余公式如下:

(Red(S) = H_{max} — H(S))

关联

相关摘要应该与原文非常接近。换句话说，相关摘要应该具有最小的信息损失。为了测量相关性，我们需要使用交叉熵比较源文档(\mathbb{P}_D)和摘要(\mathbb{P}_S)的概率分布，如下所示:

(Rel(S，D) = — CE(S，D)= \ sum _ { w _ I } \ mathbb { P } _ S(w _ I)x log(\ mathbb { P } _ D(w _ I)))

该公式被视为在期望 D 源文档时产生 S 摘要的平均意外。具有低交叉熵(以及如此低的惊奇)的摘要 S 暗示关于原始文档是什么的低不确定性。只有当(\mathbb{P}_S)类似于(\mathbb{P}_D)时，才可能出现这种情况。

当使用源文档 D 生成摘要 s 时，KL 散度测量信息的损失。最小化 KL 散度的摘要最小化冗余并最大化相关性，因为它是最少偏差(最少冗余)的匹配 D 的摘要。KL 散度如下连接冗余和相关性:

(KL(S||D) = CE(S，D)-H(S))
(-KL(S | | D)= Rel(S，D)-Red(S))

信息量

信息含量介绍背景知识 K，以获取以前的知识用于总结。K 在所有语义单位上都用(\mathbb{P}_K)表示。概要 S 中的新信息量由概要和背景知识之间的交叉熵来度量，如下所示:

(Inf(S，K) = CE(S，K))
(Inf(S，K)=-\ sum _ { w _ I } \ mathbb { P } _ S(w _ I)x log(\ mathbb { P } _ K(w _ I)))

相关性的交叉熵应该较低，因为我们希望摘要与源文档尽可能相似和相关，而信息量的交叉熵应该较高，因为我们正在测量用于生成摘要的背景知识量。这种背景知识的引入允许我们根据我们想要包括的知识种类来定制模型，无论是特定领域的知识还是特定用户的知识还是一般知识。它还引入了更新汇总的概念。更新摘要包括对已经看过文档/摘要 U 的源文档 D 进行摘要。文档/摘要 U 可以由背景知识 K 建模，这使得 U 成为先前的知识。

重要

重要性是指导摘要中应包含哪些信息的指标。给定一个具有知识 K 的用户，生成摘要的目的应该是给用户带来最新的信息。因此，对于每个语义单元，我们需要一个函数(f(d_i，k_i))取源文档 D 中语义单元的概率((d_i = \mathbb{P}_D(w_i)))和背景知识((k_i = \mathbb{P}_K(w_i))，来确定其重要性。函数(f(d_i，k_i))有四个要求:

信息量。如果两个语义单元在源文档中同等重要，我们会选择信息量更大的一个，这是由背景知识决定的
关联。如果两个语义单元的信息量相同，那么我们更喜欢源文档中更重要的语义单元
可加性。这是一个一致性约束，允许添加信息度量
正常化。为了确保函数是有效的分布

汇总评分功能

(\mathbb{P}{(\frac{D}{K})})编码语义单位的相对重要性，即相关性和信息量之间的权衡。这种分布将捕获的一个例子是，如果语义单元在源文档中是重要的，但是在背景知识中是未知的，那么对于该语义单元来说(\mathbb{P}{(\frac{D}{K})})非常高，因为它非常希望被包括在摘要中，因为它增加了知识差距。下图对此进行了说明。该摘要应该是无冗余的和最佳的近似(\mathbb{P}_{(\frac{D}{K})})，如下所示:

(S * = arg max \ theta _ I = arg min KL(S | | \ math bb { P } _ {(\ frac { D } { K })})(\ theta _ I(S，D，K)=-KL(\ math bb { S } | | \ math bb { P } _ {(\ frac { D } { K })}))

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源、背景知识和目标分布之间的分布细分[1]

可总结性

我们可以使用(\mathbb{P}_{(\frac{D}{K})})来衡量可以从分布中提取多少好的摘要，如下所示:

(H _ { \ frac { D } { K } } = H(\ mathbb { P } _ {(\ frac { D } { K })}))

如果(H_{\frac{D}{K}})很高，那么可以从分布中生成许多类似的好摘要。反之，如果低了，好的总结就少了。就汇总评分函数而言，另一种表达方式如下:

(\theta_I(S，D，K) = -Red(S) + \alpha Rel(S，D) + \beta Inf(S，K))

最大化(\theta_I)相当于最大化相关性和信息量，同时最小化冗余，这正是我们在高质量摘要中想要的。(\alpha)表示相关性分量的强度，而(\beta)表示信息性分量的强度。这意味着 H(S)，CE(S，D)和 CE(S，K)是影响重要性概念的三个独立因素。

潜在信息

到目前为止，我们已经使用相关性将摘要 S 与源文档 D 连接起来，使用信息性将摘要 S 与背景知识 K 连接起来。但是，我们也可以将源文档 D 与背景知识 k 联系起来。如果源文档 D 与背景知识 k 有很大不同，我们可以从源文档 D 中提取大量新信息。除了在源文档 D 和背景知识 k 之间，其计算与信息量相同。这个新的交叉熵表示在给定背景知识 k 的情况下从源文档 D 中可能获得的最大信息增益。

实验

我们使用了两个评估数据集:TAC-2008 和 TAC-2009。数据集集中在两个不同的摘要任务上:多文档的普通摘要和更新摘要。背景知识 K、(\alpha)和(\beta)是我们用于总结的理论模型的参数。我们将(\alpha = \beta = 1)和背景知识 K 设置为背景文档中单词的频率分布或来自源文档的所有单词的概率分布。

与人类判断的相关性

我们评估我们的数量与人类判断的相关性。我们的框架中的每一个量都可以用来对句子进行总结评分，因此我们可以评估它们与人类判断的相关性。结果展示如下。在这三个量中，相关性似乎与人类的判断有最高的相关性。背景知识的包含与预期的更新总结一起工作得更好。最后，(\theta_I)在两种类型的汇总中都给出了最好的性能。单个数量本身并没有很强的表现，但一旦将它们放在一起，就给了我们一个可靠的很强的汇总得分功能。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

肯德尔的陶对一般和更新总结[1]的相关性进行了衡量

与参考摘要的比较

理想情况下，我们希望生成的摘要(使用(\mathbb{P}_{(\frac{D}{K})}))与人类参考摘要((\mathbb{P}_R))相似。我们使用(\theta_I)对这两个摘要进行了评分，发现人类参考摘要的评分明显高于我们生成的摘要，证明了我们评分函数的可靠性。

结论和未来工作

当进行总结时，重要性统一了冗余、相关性和信息量这三个常见的度量标准，并告诉我们在最终的总结中应该丢弃或包含哪些信息。背景知识和语义单位的选择是理论模型的开放参数，这意味着它们对实验/探索是开放的。n-gram 是语义单元的很好的近似，但是我们在这里可以考虑什么其他粒度呢？

背景知识的潜在未来工作可能是使用该框架从数据中学习知识。具体来说，您可以训练一个模型来学习背景知识，以便该模型与人类的判断具有最高的相关性。如果您汇总所有用户和主题的所有信息，您可以找到通用的背景知识。如果您聚合所有用户，但在一个特定的主题中，您可以找到特定主题的背景知识，并且可以为单个用户完成类似的工作。

来源:

[1] Peyrard，m .，2018。一个简单的理论模型对总结的重要性。 arXiv 预印本 arXiv:1801.08991 。

原载于 2020 年 4 月 29 日【https://ryanong.co.uk】。

特征提取/基于特征的情感分析

总结

其他人

#NLP365 的第 121 天:NLP 论文摘要——抽象摘要的概念指针网络

原文：https://towardsdatascience.com/day-121-of-nlp365-nlp-papers-summary-concept-pointer-network-for-abstractive-summarization-cd55e577f6de?source=collection_archive---------53-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

阅读和理解研究论文就像拼凑一个未解之谜。汉斯-彼得·高斯特在 Unsplash 上拍摄的照片。

内线艾 NLP365

NLP 论文摘要是我总结 NLP 研究论文要点的系列文章

今天的 NLP 论文是 概念指针网络，用于抽象概括 n .以下是研究论文的要点。

目标和贡献

提出了用于抽象概括的概念指针网络，它使用基于知识和上下文感知的概念化来导出一组候选概念。然后，当生成抽象摘要时，模型将在概念集和原始源文本之间进行选择。对生成的摘要进行自动和人工评估。

提出的概念指针网络不只是简单地从源文档中复制文本，它还会从人类知识中生成新的抽象概念，如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

指针网络框架概念[1]

在我们新颖的模型架构之上，我们还提出了一种远程监督学习技术，以允许我们的模型适应不同的数据集。自动和人工评估都显示出相对于 SOTA 基线的显著改进。

提议的模式

我们的模型架构由两个模块组成:

编码器-解码器
概念指针生成器

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

概念指针生成器的体系结构[1]

编码器-解码器

编解码框架由两层双向 LSTM-RNN 编码器和一层带注意机制的 LSTM-RNN 解码器组成。输入序列中的每个单词都由向前和向后隐藏状态的串联来表示。通过对隐藏状态表示应用注意机制来计算上下文向量。这个上下文向量被馈送到我们的解码器，在那里它将使用上下文向量来确定从我们的词汇分布生成新单词(p_gen)的概率。

概念指针生成器

首先，我们使用微软概念图将一个单词映射到它的相关概念。这个知识库覆盖了一个巨大的概念空间，概念和实体之间的关系是概率性的，这取决于它们的相关程度。本质上，概念图将接受这个单词，并估计这个单词属于一个特定概念 p(c|x)的概率。对于概率，这意味着给定每个单词，概念图将有一组它认为该单词所属的候选概念(具有不同的置信度)。为了让我们的模型选择正确的候选概念，例如，区分单词“apple”的水果和公司概念，我们将使用编码器-解码器框架中的上下文向量。

我们将使用上下文向量来更新概念分布。我们通过将当前隐藏状态、上下文向量和当前候选概念馈送到 softmax 分类器中来计算更新的权重。然后，这个更新的权重被添加到现有的概念概率中，以考虑输入序列的上下文，从而允许我们导出上下文感知的概念概率。

我们的概念指针网络由指向源文档的普通指针和指向给定源文档的相关概念的概念指针组成。概念指针通过注意力分布按元素进行缩放，并被添加到普通指针(注意力分布)。这将是模型复制的复制分布，它包括在原始源文档上的普通文本分布之上的概念分布。

模型适应的远程监控

如果我们的训练集的摘要-文档对不同于测试集，我们的模型将表现不佳。为了应对这种情况，我们需要重新训练我们的模型，以降低最终损失中的这种差异。为此，我们需要标签来表明我们的训练集与测试集有多接近。为了创建这些标签，我们使用每个训练参考概要和来自测试集的一组文档之间的 KL 散度。换句话说，训练对是远距离标记的。参考文献摘要和文档的表示都是通过对组成单词嵌入求和来计算的。这个 KL 散度损失函数包含在训练过程中，并且它测量测试集和我们的每个参考摘要-文档对之间的总距离。这允许我们确定我们的训练集对于模型适应是相关还是不相关。

实验设置和结果

有两个评估数据集:千兆字和 DUC-2004。评估指标是 ROUGE 分数。

模型比较

有 8 种基线模型:

ABS+ 。抽象概括模型
卢昂-NMT 。LSTM 编码器-解码器
拉斯-埃尔曼。CNN 关注编码器，RNN 关注解码器
Seq2seq+att 。BiLSTM 编码器和带注意力解码器的 LSTM
Lvt5k-lsent 。利用对解码器的时间关注来减少摘要中的重复
季节。使用选择门来控制从编码器到解码器的信息流
指针生成器。正常 PG
CGU 。使用卷积门控单元和自我关注进行编码

结果

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

表 Concept Pointer 和其他基准模型之间的 ROUGE 结果和比较。表 2——词汇外问题分析。表 3 —抽象性的度量[1]

在表 1 中，我们的概念指针在所有指标上都优于所有基线模型，除了在 Gigaword 上的 RG-2(CGU 得分最高)。在表 2 中，我们显示由概念指针生成的摘要具有最低的 UNK 词百分比，缓解了 OOV 问题。在表 3 中，我们展示了我们生成的摘要的抽象性。我们证明了由我们的概念指针生成的摘要具有相对较高的抽象级别，并且接近于引用摘要级别。

我们试验了两种不同的培训策略:强化学习(RL)和远程监督(DS)。应用于概念指针的两种训练策略都优于普通概念指针。此外，在 DUC-2004 数据集，概念指针+ DS 持续优于概念指针+ RL，展示了远程监督对更好的模型适应的影响。

上下文感知概念化

我们想衡量概念更新策略的影响，所以我们对不同数量的候选概念进行了实验。结果如下所示。在不同数量概念候选者之间，ROUGE 分数只有很小的变化。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

ROUGE 在 Gigaword 和 DUC 2004 数据集上的结果[1]

人工评估

我们进行了人体评估，每位志愿者都必须回答以下问题:

抽象 —摘要中的抽象概念有多贴切？
总体质量 —摘要的可读性、相关性和信息量如何？

我们随机选择了 20 个例子，每个例子都有三个不同的摘要(来自三个模型),并对每种类型的摘要被选中的频率进行评分。结果如下所示，显示了指针网络的概念优于 seq2seq 模型和指针生成器。生成的摘要看起来流畅且信息丰富，然而，它仍然不像人类参考摘要那样抽象。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

人对抽象和整体质量的评价[1]

结论和未来工作

来源:

[1]王，王伟，高，黄海燕，周，2019，11 月.用于抽象摘要的概念指针网络。在2019 自然语言处理经验方法会议暨第九届国际自然语言处理联合会议(EMNLP-IJCNLP) 论文集(第 3067–3076 页)。

原载于 2020 年 4 月 30 日 https://ryanong.co.uk*。*

特征提取/基于特征的情感分析

总结

其他人

#NLP365 的第 122 天:NLP 论文摘要——将 BERT 应用于 Birch 的文献检索

原文：https://towardsdatascience.com/day-122-of-nlp365-nlp-papers-summary-applying-bert-to-document-retrieval-with-birch-766eaeac17ab?source=collection_archive---------47-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

阅读和理解研究论文就像拼凑一个未解之谜。汉斯-彼得·高斯特在 Unsplash 上拍摄的照片。

内线艾 NLP365

NLP 论文摘要是我总结 NLP 研究论文要点的系列文章

今天的 NLP 论文是 用 Birch 将 BERT 应用于文档检索。以下是研究论文的要点。

目标和贡献

Birch，一个使用 BERT 进行文档检索的建议系统。它与 Anserini 信息检索工具包集成，为大型文档集带来完整的端到端文档检索。

文档检索是给定一个大的文档集合，系统应该根据用户的查询返回一组排序的文档。Lucene(以及 Solr 和 Elasticsearch)是业界构建搜索引擎的主要平台。然而，当涉及到连接 NLP 和 IR 时，存在一个技术挑战，Lucene 是用 Java 实现的，然而，大多数深度学习技术是用 Python 和 C++后端实现的。

桦树

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

桦树的建筑[1]

Birch 的建筑由两个阶段组成:

使用 Anserini 进行检索
使用基于 BERT 的模型进行重新排序

Python 是代码入口点，它使用 Pyjnuis 库访问 Java 类与 Anserini 集成。总的来说，Python 是主要的开发语言，连接到 Java 虚拟机(JVM)后端进行检索。

我们针对文本的相关性分类对 BERT 进行了微调。给定文档 D 和查询 Q，我们将它们连接成以下文本序列:[CLS] + Q + [SEP] + D + [SEP]。对于每个小批量，我们将序列填充到 N 个令牌，其中 N 是批量中的最大长度令牌。像往常一样，[CLS]令牌被输入到一个单层神经网络中。一个问题是，BERT 不是为长文档推理而设计的，所以我们决定在每个文档的句子级别进行推理，并聚合句子级别的推理来对文档进行排序。先前的工作发现，文档中的最佳得分句子提供了文档相关性的良好代理。

检索结果

有两个评估数据集:TREC 2011-2014 微博轨迹和 TREC 2004 健壮轨迹。对于微博轨迹，Birch 应用于一组推文。使用查询可能性和 RM3 相关反馈来检索初始候选集(大约 100 个)，使用 BERT 来推断整个候选文档(因为它很短，BERT 可以覆盖整个文档，而不是句子级的聚合)。结果如下所示。检索的两个常见评估指标是平均精度(AP)和排名 30 的精度(P@30)。如图所示，Birch 在基线和高级神经模型的基础上每年都有很大的进步。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

结果在 TREC 微博上追踪报道[1]

健壮跟踪器由用于文档检索任务的新闻专线文章组成。这个数据集的另一个挑战是没有足够的数据来微调我们的 BERT 模型，因为相关性标签是在文档级别。先前工作的令人惊讶的发现是，尽管两个数据集在不同的领域，但用微博轨迹微调的 BERT 模型在新闻专线文章排名方面工作得很好。BERT 能够学习在不同领域的句子级别上建立相关性模型，这已被证明对新闻专线文章的排名是有用的。对于稳健的跟踪，我们用 MARCO 女士和微博数据对 BERT 进行了微调，结果如下所示。我们将 BERT 的分数与文档分数(BM25 + RM3)结合起来。1-3 指的是将前 1-3 个句子的得分相加。总的来说，结果表明我们可以通过预测句子级别的相关性来准确地对文档进行排序。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Robust04 的结果[1]

结论和未来工作

通过句子级推理和分数聚合，该系统架构使用 BERT 对文档进行排序。我们已经成功地将 PyTorch 与 Java 虚拟机后端集成在一起，允许研究人员在他们熟悉的环境中进行代码开发。

来源:

[1]，张志安，王，杨，张，林，2019 年 11 月.BERT 在 birch 文献检索中的应用。在2019 自然语言处理经验方法会议暨第九届国际自然语言处理联合会议(EMNLP-IJCNLP)论文集:系统演示(第 19–24 页)。

原载于 2020 年 5 月 1 日【https://ryanong.co.uk】。

特征提取/基于特征的情感分析

总结

其他人

#NLP365 的第 123 天:NLP 论文摘要——用于基于方面的目标情感分析的上下文感知嵌入

原文：https://towardsdatascience.com/day-123-of-nlp365-nlp-papers-summary-context-aware-embedding-for-targeted-aspect-based-be9f998d1131?source=collection_archive---------64-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

阅读和理解研究论文就像拼凑一个未解之谜。汉斯-彼得·高斯特在 Unsplash 上拍摄的照片。

内线艾 NLP365

NLP 论文摘要是我总结 NLP 研究论文要点的系列文章

今天的 NLP 论文是 针对有针对性的基于方面的情感分析的上下文感知嵌入 。以下是研究论文的要点。

目标和贡献

提出了上下文感知嵌入，使用高度相关的词来改进目标和方面的嵌入。大量先前的工作使用上下文无关向量来构造目标和方面嵌入，这导致语义信息的丢失，并且未能捕捉特定目标、其方面和其上下文之间的相互联系。这种方法导致了基于方面的目标情感分析(TABSA)的 SOTA 结果。TABSA 的目标是给定一个输入句子，我们想要提取属于目标的方面的情感。下图展示了 TABSA 任务:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这些贡献如下:

通过使用稀疏系数向量来识别与目标高度相关的单词并相应地改进目标嵌入，来为目标构建上下文感知嵌入
微调方面嵌入以尽可能接近高度相关的目标嵌入
在 SentiHood 和 SemEval 2015 上取得 SOTA 成果

方法学

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

上下文感知嵌入的架构[1]

模型框架具有以下步骤:

句子嵌入矩阵 X 被馈入全连接层和阶跃函数以创建稀疏系数向量 u’。
u '的隐藏输出用于细化目标和方面嵌入
计算平方欧几里德函数并训练模型以最小化距离，从而获得目标和方面的最终精确嵌入

目标表示

可以通过将句子单词嵌入 X 乘以稀疏系数向量 u’来计算精确的目标嵌入。稀疏系数向量使用阶跃函数展示了上下文中不同单词的重要性。对于每个目标，我们通过迭代最小化目标和句子中高度相关单词之间的平方欧几里德距离来计算上下文感知目标嵌入。

方面表示

我们通过使用高度相关词的稀疏系数向量来细化方面嵌入。这背后的论点是，方面词通常包含重要的信息，上下文信息通常与方面有很高的联系。同样，对于每个方面，我们通过最小化方面嵌入、上下文感知目标嵌入和不相关嵌入之间的平方欧几里德距离来计算上下文感知方面嵌入。这将微调我们的方面嵌入，使其更接近高度相关的目标嵌入，并远离不相关的嵌入。

实验和结果

有两个评估数据集:SentiHood 和 SemEval 2015 Task 12。

模型比较

LSTM-决赛。只使用最终隐藏状态的 BiLSTM
LSTM-洛克。使用位置目标所在的隐藏状态的 BiLSTM
SenticLSTM 。使用外部知识的 BiLSTM
延迟记忆。延迟记忆机制
RE+SenticLSTM 。我们的精致嵌入+ SenticLSTM
RE+延时记忆。我们的精细嵌入+延迟记忆

结果

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

关于 SentiHood 和 Semeval 2015 的结果[1]

对于情感，我们提出的方法在 SenticLSTM 和延迟记忆的基础上，在方面检测和情感分类方面都取得了比原始模型更好的性能。我们的上下文感知嵌入允许模型更好地捕捉方面和情感信息，因为我们能够更好地对目标、其方面和上下文之间的互连进行建模。对于 SemEval 2015，我们展示了类似的结果，我们提出的方法优于原始模型。下图显示了我们提出的上下文感知嵌入与使用 TSNE 的原始方面嵌入的对比。如图所示，使用我们的上下文感知嵌入，不同方面之间有更多的分离，展示了它在上下文中区分不同方面的能力以及捕捉特定方面的共同特征的能力。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

通过不同的基于嵌入的模型学习的中间嵌入[1]

结论和未来工作

通过选择和使用高度相关的词来提炼目标和方面嵌入，我们能够提取特定目标、其方面和其上下文之间的联系，以生成更好的有意义的嵌入。未来的工作包括为其他类似的 NLP 任务探索这种方法。

来源:

[1]梁，b，杜，j，徐，r，李，b，黄，h，2019 .面向基于方面的情感分析的上下文感知嵌入。 arXiv 预印本 arXiv:1906.06945 。

原载于 2020 年 5 月 2 日【https://ryanong.co.uk】。

特征提取/基于特征的情感分析

总结

其他人

第 124 天:NLP 论文摘要——TLDR:科学文献的极端摘要

原文：https://towardsdatascience.com/day-124-nlp-papers-summary-tldr-extreme-summarization-of-scientific-documents-106cd915f9a3?source=collection_archive---------60-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

阅读和理解研究论文就像拼凑一个未解之谜。汉斯-彼得·高斯特在 Unsplash 上拍摄的照片。

内线艾 NLP365

NLP 论文摘要是我总结 NLP 研究论文要点的系列文章

项目#NLP365 (+1)是我在 2020 年每天记录我的 NLP 学习旅程的地方。在这里，你可以随意查看我在过去的 270 天里学到了什么。在本文的最后，你可以找到以前的论文摘要，按自然语言处理领域分类:)

今天的 NLP 论文是 TLDR:科学文献的极端摘要 。以下是研究论文的要点。

目标和贡献

介绍了 TLDR 生成任务和 SCITLDR，这是一个新的极端摘要数据集，研究人员可以使用它来训练模型，为科学论文生成 TLDR。引入注释协议，使用同行评审意见创建不同的基本事实摘要，允许我们扩展数据集，并且第一次有多个摘要链接到单个源文档。最后，我们提出了一个基于 TLDR 和标题生成的多任务训练策略来适应我们的预训练语言模型 BART。这已经显示出优于提取和抽象基线。

TLDR 生成任务介绍

TLDR 生成任务旨在生成忽略背景或方法细节的 tldr，并更加关注关键方面，如论文的贡献。这要求模型具有背景知识以及理解特定领域语言的能力。下图展示了 TLDR 任务的一个示例，以及出现在 TLDR 的信息类别列表。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

TLDR 极限汇总任务简介[1]

SCITLDR 数据集

SCITLDR 在计算机科学科学文献中有 3935 个 TLDR。SCITLDR 包括论文原作者和同行评议撰写的 TLDR。然而，这里的关键区别在于，作者和同行评审是基于评审者的评论而不是原始研究论文来撰写 TLDR 的。这种方法假设读者有很好的背景知识来了解一般的研究领域，所以我们的 TLDRs 可以省略常见的概念。此外，审稿人的评论是由该领域的专家撰写的，因此它们是高质量的摘要。下图展示了注释过程的一个例子。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

SCITLDR 数据集的注释过程[1]

SCITLDR 的独特性之一是，测试集中的每篇论文都映射到多个基础事实 TLDR，一个由原作者编写，其余由同行评审。这将 a)允许我们更好地评估我们生成的摘要，因为现在有多个基本事实摘要来计算 ROUGE 分数，b)拥有作者和读者的 TLDR 允许我们基于读者的视角捕捉摘要中的变化。

数据集分析

首先，SCITLDR 是一个小得多的数据集，由于手动数据收集和注释，只有 3.2K 的论文。其次，与其他数据集相比，SCITLDR 具有极高的压缩比。平均文档长度是 5009，它被压缩成 19 的平均摘要长度。这使得总结非常具有挑战性。表 3 展示了这些汇总统计数据。SCITLDR 对于测试集中的每篇论文至少有两个基础事实 TLDR，因此我们研究不同基础事实 tldr 之间的 ROUGE 分数差异。作者生成的 tldr 和 PR 生成的 tldr 之间存在较低的 ROUGEE-1 重叠(27.40)。作者生成的 TLDRs 的 ROUGE-1 为 34.1，标题为论文。PR 生成的 TLDRs 只有 24.7 的 ROUGE-1。这展示了多个基础事实 TLDRs 在总结中的重要性，因为一个源文件可能有多个相关的总结。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

左:数据集比较|右:摘要的新颖程度[1]

实验设置和结果

模特培训

我们微调了巴特模型来生成 TLDR。但是，限制很少。首先，我们训练数据的大小。我们有一个小数据集来训练神经网络。这使我们从 arXiv 收集了额外的 20K 论文标题对，并对我们的 SCITLDR 进行了采样，以匹配新的卷。我们收集标题的原因是因为它通常包含关于论文的重要信息，我们相信如果我们训练模型也执行标题生成，它将学习如何从论文中选择重要信息。有了新的信息，我们就可以训练我们的模型了。首先，我们在 XSUM 数据集上训练 BART-large 模型，这是一个通用新闻领域的极端概括数据集。然后，我们将在 SCITLDR 和 title 数据集上微调我们的 BART 模型。

我们面临的第二个限制是，BART 对输入长度有限制，因此我们将 BART 放在两个设置下:BART_abstract (SCITLDR_Abst)和 BART _ abstract _ intro _ 结论(SCITLDR_AIC)。这些是用于生成标题/TLDR 的不同输入。现有的研究表明，研究论文中最重要的信息是摘要、引言和结论。

模型比较

提取模型。PACSUM(text rank 的非监督扩展)和 BERTSUMEXT(监督扩展)
抽象模型。BART 的不同变体

我们使用 ROUGE 指标进行评估。我们将计算每个地面实况 TLDRs 的胭脂分数，并选择最大值。

结果

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

SCITLDR 的总体结果，包括 AIC 和 Abst 版本[1]

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

提取摘要的上限[1]

提取预言提供了一个上限性能。在表 6 中，我们可以看到随着输入空间的增加，ROUGE 得分不断增加。具体来说，当包括介绍和结论作为输入时，有 5 个 ROUGE 分数的提高，展示了它们在生成有用的摘要中的重要性。虽然从《AIC》到《全文》的胭脂评分有所提高，但提高幅度并不大，说明论文其他部分的附加值没有《AIC》高。

在表 5 中，我们可以看到 BART 在原始 SCITLDR 上的微调足以胜过其他提取和抽象基线。在 XSUM 上预训练 BART 时显示了进一步的改进，但是，这种改进只适用于 SCITLDR_AIC。我们的多任务学习策略已经超越了所有基线模型，并在 BART + XSUM 的基础上实现了进一步的改进。这展示了为标题和 TLDR 一代培训模型的附加值。下图展示了由不同模型生成的摘要的定性示例。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

BART tldr 的定性示例[1]

结论和未来工作

潜在的未来工作可以利用整篇论文的信息，捕捉更多的背景。此外，我们可以明确地对读者的背景知识建模，根据读者是谁来创建 TLDRs。最后，我们可以将我们的注释过程应用于其他数据集，并将任何同行评审意见转换为 TLDRs 摘要。

来源:

[1]卡舒拉，I .，罗，k .，科汉，a .和韦尔德，D.S .，2020 年。TLDR:科学文献的极端摘要。 arXiv 预印本 arXiv:2004.15011 。

原载于 2020 年 5 月 3 日 https://ryanong.co.uk*。*

特征提取/基于特征的情感分析

总结

其他人

#NLP365 的第 125 天:NLP 论文摘要— A2N:关注知识图推理的邻居

原文：https://towardsdatascience.com/day-125-of-nlp365-nlp-papers-summary-a2n-attending-to-neighbors-for-knowledge-graph-inference-87305c3aebe2?source=collection_archive---------73-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

阅读和理解研究论文就像拼凑一个未解之谜。汉斯-彼得·高斯特在 Unsplash 上拍摄的照片。

内线艾 NLP365

NLP 论文摘要是我总结 NLP 研究论文要点的系列文章

今天的 NLP 论文是 A2N:参加邻居进行知识图推理 。以下是研究论文的要点。

目标和贡献

提出了一种新的基于注意力的方法 A2N 来处理知识图(KG)完成任务，该方法结合实体的相关图邻域来计算依赖于查询的实体嵌入。所提出的方法在两个评估数据集上表现出竞争性或优于当前的 SOTA 模型，并且通过定性探测，我们能够探索模型如何围绕知识图跳跃以导出其最终推理。

KG 完成任务

KG 完成的任务包括从 KG 中填充和推断缺失的实体关系。这通常被公式化为目标实体预测任务，由此给定源实体和关系，目标实体是什么？因此，给定一个 KG，它由(s，r，t)的许多元组组成，其中 s 是源实体，r 是关系，t 是目标实体，我们的目标是在给定 s 和 r 的情况下预测目标实体，使得预测的元组在图中不存在。

大多数基于嵌入的 KG 完成方法涉及为 KG 中的每个元组定义一个评分函数。评分函数可以不同，但它接受源实体、关系和目标实体的嵌入。在本文中，我们使用 DistMult 评分函数。

A2N 模型

我们提出的 A2N 接受查询，并使用对实体的图邻域的双线性关注来生成依赖于查询的实体嵌入。这种特殊的嵌入随后被用于为查询的目标实体评分。下图展示了在给定两个不同查询的情况下，模型如何对同一节点的相邻节点进行不同评分的示例。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

A2N 模型如何生成答案[1]

以下是 A2N 中每个步骤的分解:

每个图形实体有一个初始嵌入(\tilde{e}⁰\，每个关系 r 有一个嵌入
给定实体和关系的嵌入，我们现在可以将相邻的实体和关系编码到嵌入中。实体 s 的邻居((\tilde{n}_i))的嵌入通过 a)连接初始实体嵌入和关系嵌入以及 b)对其应用线性变换来计算
该模型使用评分函数计算每个相邻嵌入的关注度得分(a_i ),并将其归一化以获得概率(p_i)
步骤 3 给出了每个相邻嵌入在回答查询时的相关程度的概率。我们聚集这些加权的相邻嵌入来生成实体 s 的查询相关嵌入，(\hat{s})
最后，我们将依赖于查询的嵌入与初始的源嵌入连接起来，以创建最终的源嵌入(\tilde{s})

现在我们已经获得了最终的源嵌入，我们可以使用最终的源嵌入、关系嵌入和评分函数来对 KG 中所有可能的目标实体进行评分。这将为我们提供特定查询的潜在实体的排序列表。

实验设置和结果

有两个 KG 完井评价数据集:FB15k-237 和 WN18RR。评估度量是正确实体的平均倒数排名(MRR)和 Hits@N，Hits @ N 衡量前 N 个预测的准确性。

结果

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

FB15k-237 和 WN18RR 数据集的总体结果[1]

对于仅针对目标的预测(表 1)，我们的 A2N 模型在两个数据集的所有评估指标上都显著优于之前的 SOTA 性能。对于源和目标预测(表 2)，我们得到了混合的结果。除了 Hits@10，A2N 模型在所有指标上都优于 WN18RR 数据集中的所有模型。然而，在 FB15k-237 数据集上，我们的模型表现不如 ConvE，然而，它仍然实现了接近 SOTA 的竞争性能。

如上图所示，该模型能够根据查询加入同一实体的不同相邻节点，并执行多跳推理。例如，使用相邻的“places _ lived”，实体被映射到相关的嵌入子空间中，并且使用评分函数和关系“nationality”，我们能够为目标实体 US 获得高分，这是我们的模型的最终预测。给定这个例子，我们有一个两跳推理，首先是关于居住的地方，然后是关于这些地方的国家。更多示例见下图。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

查询和顶级预测的示例[1]

结论和未来工作

所提出的 A2N 模型是可解释的，并且其大小不依赖于实体邻域的数量。潜在的未来工作可能涉及应用这些方法来关注除了图之外的实体的文本提及，以联合推理文本和知识图。

来源:

[1]班萨尔，t .，胡安，D.C .，拉维，s .和麦卡勒姆，a .，2019 年 7 月。A2N:关注邻居进行知识图推理。在计算语言学协会第 57 届年会的会议录(第 4387–4392 页)。

原载于 2020 年 5 月 4 日【https://ryanong.co.uk】。

特征提取/基于特征的情感分析

总结

其他人

#NLP365 的第 126 天:NLP 论文摘要-具有话题感知新闻表示的神经新闻推荐

原文：https://towardsdatascience.com/day-126-of-nlp365-nlp-papers-summary-neural-news-recommendation-with-topic-aware-news-4eb9604330bb?source=collection_archive---------66-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

阅读和理解研究论文就像拼凑一个未解之谜。汉斯-彼得·高斯特在 Unsplash 上拍摄的照片。

内线艾 NLP365

NLP 论文摘要是我总结 NLP 研究论文要点的系列文章

项目#NLP365 (+1)是我在 2020 年每天记录我的 NLP 学习旅程的地方。在这里，你可以随意查看我在过去的 273 天里学到了什么。在本文的最后，你可以找到以前的论文摘要，按自然语言处理领域分类:)

今天的 NLP 论文是 带话题感知新闻表示的神经新闻推荐 。以下是研究论文的要点。

目标和贡献

提出了 TANR，一个具有话题感知新闻嵌入的神经新闻推荐系统。这包括一个主题感知新闻编码器和一个用户编码器。新闻编码器使用 CNN 网络和注意力机制来选择使用新闻标题的重要单词。我们联合训练新闻编码器和辅助主题分类任务。对于用户编码器，我们通过用户阅读过的历史新闻来学习表征，并使用注意机制为用户选择信息丰富的新闻。实验结果表明，该方法提高了新闻推荐的性能。

方法学

模型架构

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

整体模型架构[1]

模型架构由三个主要模块组成:

新闻编码器
用户编码器
点击预测器

新闻编码器的目标是从标题中学习新闻表示。有三层。第一层是单词嵌入层，它将标题的单词转换成单词嵌入。第二层是 CNN 层，它接收单词嵌入，并通过捕获本地上下文信息输出上下文单词嵌入。最后一层是关注层，让模型关注标题中更重要的词。这一层生成最终的新闻表示，它是所有上下文单词嵌入的加权和。

用户编码器的目标是从历史浏览新闻中学习用户的表现。这个想法是，历史浏览新闻允许我们捕捉关于特定用户的不同信息/偏好。我们使用新闻编码器对所有浏览过的历史新闻进行编码，获得新闻表示。用户编码器接收这些新闻表示，并对其应用关注机制，以选择给我们提供关于用户的更好信息的关键新闻。最终的用户表征是所有用户历史浏览新闻表征的加权和。

点击预测器的目标是预测用户点击候选新闻的概率。点击预测器采用候选新闻表示和用户表示，并通过采用两个表示之间的内积来计算点击概率分数。

话题感知新闻编码器

新闻文章的主题对于新闻推荐很重要，因此包含主题信息将改善新闻和用户的表现。然而，我们有有限的主题信息，所以我们决定联合训练我们的新闻编码器与新闻主题分类模型，如下所示。这给了我们一个话题感知新闻编码器。新闻主题分类模型由新闻编码器和主题预测器模块组成。新闻编码器与新闻推荐模型共享，主题预测器模块用于根据新闻表示预测主题分布(使用 softmax)。使用共享的新闻编码器，新闻编码器将对主题信息进行编码，并由新闻推荐模型使用。联合训练新闻推荐和主题分类任务意味着我们有两个损失要优化。总损失是这两个损失的总和。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

话题感知新闻编码器的总体框架[1]

实验设置和结果

真实世界的数据集是一个月的 MSN 新闻。数据集和主题分布的统计如下所示。评估指标为 AUC、MRR、nDCG@5 和 nDCG@10。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们数据集的描述性统计[1]

模型比较

LibFM 。用于推荐的矩阵分解技术
DSSM 。使用历史浏览新闻作为查询来检索候选新闻
宽&深。宽线性通道+深度神经网络
DeepFM 。使用不同的分解机器和神经网络
DFM 。组合不同等级密集层并使用注意机制
DKN 。使用知识图中的实体信息
TANR-基本。没有话题感知新闻编码器的 TANR

结果

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用不同评估指标的总体结果[1]

神经网络模型比传统的矩阵分解技术更好，因为神经网络可以学习更好的新闻和用户表示。TANR 基础和 TANR 都超过了所有的基线模型。TANR 的表现一直优于 TANR-basic，展示了整合新闻主题进行新闻推荐的好处，以及我们联合训练模型的策略的有效性。

就我们的主题分类器的性能而言，F1 结果如下所示。不同主题的分类都很好，除了“孩子”类。这可能是因为“孩子”类的训练数据有限。总的来说，结果表明我们的新闻编码器已经编码了主题信息，这改进了我们的新闻推荐模型的结果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

话题分析和不同注意网络的有效性[1]

在图 6 中，我们展示了使用不同注意力网络的结果。结果表明，新闻级和单词级注意都是有用的，因为它们都优于无注意网络的基线。这又回到了一个假设，即不同的新闻包含关于用户的不同信息，不同的词在表示新闻时具有不同的重要性，我们的注意力网络允许我们挑选最有信息量的新闻和重要的词。结合这两种注意力网络会产生更高的结果。

最后，我们研究了超参数λ的影响。该超参数控制主题分类任务的相对重要性，因为它决定了模型在多大程度上关注主题分类损失函数的优化。下面显示的结果告诉我们，如果 lambda 太低，我们的模型的性能不是最佳的，因为新闻编码器没有学习到足够的主题信息。如果 lambda 太高，模型会过于关注主题分类任务，而忽略了新闻推荐任务。最佳λ似乎是 0.2。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

λ超参数的影响[1]

来源:

[1]吴，c，吴，f，安，m，黄，y，谢，x，2019，7 月。具有话题感知新闻表示的神经新闻推荐。在计算语言学协会第 57 届年会的会议录(第 1154-1159 页)。

原载于 2020 年 5 月 5 日【https://ryanong.co.uk】。

特征提取/基于特征的情感分析

总结

其他人

#NLP365 的第 140 天:NLP 论文摘要——自动 ICD 编码的多模态机器学习

原文：https://towardsdatascience.com/day-140-of-nlp365-nlp-papers-summary-multimodal-machine-learning-for-automated-icd-coding-b32e02997ea2?source=collection_archive---------63-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

阅读和理解研究论文就像拼凑一个未解之谜。汉斯-彼得·高斯特在 Unsplash 上拍摄的照片。

内线艾 NLP365

NLP 论文摘要是我总结 NLP 研究论文要点的系列文章

今天的 NLP 论文是 自动 ICD 编码的多模态机器学习 。以下是研究论文的要点。

目标和贡献

提出了一种新的预测 ICD-10 编码的多模态机器学习模型。这个模型是一个集合模型，它结合了三种不同的 ML 模型，这三种模型是为处理三种不同的数据类型而开发的:非结构化、半结构化和结构化数据。我们的模型优于所有的基线模型，并且具有离医生不远的高解释水平。

临床 ICD 景观

ICD 是诊断和程序代码的医学分类列表。这些代码广泛用于诊断信息的报销、存储和检索。分配 ICD 代码的过程非常耗时，因为临床编码员需要从电子病历(EMR)中提取关键信息并分配正确的代码。编码错误很常见，而且代价高昂。EMR 通常以三种不同的形式存储数据:

非结构化文本。护理记录、实验室报告、测试报告和出院总结
半结构化文本。描述医生所写诊断的结构化短语列表
结构化表格数据。包含处方和临床测量，如数值测试结果

资料组

评估数据集是重症监护 III (MIMIC-III)的医疗信息集市。总共有 44，659 人被录取。诊断代码从原来的 ICD-9 映射到 ICD-10(一对一)。该数据集涵盖了 32 个 ICD 代码，它们是 MIMIC-III 和美国一家国立医院中的前 50 个频率。共有 6 张桌子:

录取。病人入院的所有信息
标签。所有实验室测量
药方。与订单条目相关的药物
微生物学。微生物信息
图表事件患者常规体征和其他相关健康信息的所有图表数据
注意事件。所有记录，包括护理和医生记录、出院总结和超声心动图报告

方法学

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

整体架构的集成模型的三个不同类型的模型，涵盖不同类型的数据集[1]

上图是我们基于集成的模型，它结合了以下三种不同的 ML 模型:

Text-CNN 。用于非结构化文本的多标签分类
Char-CNN + BiLSTM 。用于分析诊断描述和 ICD 代码描述之间的语义相似性
决策树。将结构化数字特征转换为二进制特征以分类 ICD 码

在推理过程中，我们的模型结合了三个最大似然模型进行预测，并从原始数据中提取关键证据进行检验，以提高可解释性。

文本-CNN

对于非结构化数据，我们有 Noteevents。这包括两个步骤:

数据预处理
正文-CNN 分类

对于数据预处理，对步骤 2 的输入进行简单的清理和标准化。对于步骤 2，我们使用 Text-CNN 进行多标签分类。我们还修改了 Text-CNN 来开发 TEXT-TF-IDF-CNN，如下所示。该模型包括从非结构化指南中提取的关键字和短语的 TFIDF 向量，以模拟临床指南经常用于指导诊断的真实世界情况。额外的 TFIDF 输入馈入 Text-CNN 的全连接层。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

非结构化数据的模型架构[1]

数据集中存在类别不平衡，这可能会降低我们的 ML 模型的性能，因此我们决定使用标签平滑正则化(LSR)，这可以防止我们的分类器在训练期间对标签过于确定。

Char-CNN + BiLSTM

临床编码人员经常试图提取临床记录中的关键短语和句子，并将其分配给适当的 ICD 编码。最常见的是，编码描述和诊断描述之间存在紧密的语义相似性。我们将此过程公式化为基于诊断的排序(DR)问题，其中所有代码描述都在低维密集向量空间中表示。在推理过程中，诊断描述被映射到相同的向量空间，并且基于诊断向量和每个编码向量之间的距离对 ICD 码进行排序。因此，我们决定采用如下所示的架构。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

半结构化数据的模型架构[1]

我们使用字符级 CNN 和预训练的单词嵌入将诊断和 ICD 编码描述编码到同一个空间。单词嵌入是在 PubMed 上预先训练的，PubMed 包含超过 550，000 篇生物医学论文。然后，编码的嵌入被馈送到 biLSTM 和 max-pooling 层，以生成最终的特征向量。

损失函数通过最小化诊断实例和阳性实例(阳性对)之间的距离以及最大化诊断实例和阴性实例(阴性对)之间的距离来捕捉实例之间的相对相似性。距离是用欧几里得度量的。MIMIC-III 数据集没有 ICD 代码和诊断的一对一映射，因此我们在网上爬行以提取 ICD-10 代码的同义词。每个 ICD 电码的所有同义词都是正面例子。使用类似于代码描述的 n-grams 来创建反例。

决策图表

表 2-5 都是表格数据。我们的方法是对表中的二进制特征应用决策树，并利用一对多策略进行多标签分类。为了消除班级不平衡，来自少数民族班级的样本被赋予更高的权重。

模型集成

在推理期间，我们的集合模型采用从三个单独模型预测的概率的加权和来计算每个类别的最终预测概率。

可解释性方法

为了识别导致预测的 ICD 码的关键短语，我们试图捕捉单词 w 和 ICD 码 y 之间的关联强度。我们通过从我们的神经网络中提取连接 w 和 y 的所有路径并计算影响分数来实现这一点。然后将所有路径的分数相加，以测量关联强度。为了捕捉关键短语，我们组合了具有非零分数的连续单词，并按照最高分数对它们进行排序。排名靠前的短语被认为是确定特定 ICD 码预测的重要信号。

对于每个表格特征，我们使用局部可解释的模型不可知解释(LIME)来计算该特征对模型最终预测的重要性。

实验设置和结果

我们使用两个评估指标来衡量模型的分类性能和可解释性:

分类。F1 和 AUC 来测量精度和召回率，并总结不同阈值下的性能
可解释性。Jaccard 相似性系数(JSC)来衡量提取的证据和医生的注释之间的重叠

结果

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

模拟数据集的总体结果[1]

我们使用 TFIDF 的不同变体作为基线。大多数模型都是基于 CNN 的。vanilla Text-CNN 和 DenseNet 在 F1 得分方面与基线模型表现相似，在 AUC 得分方面优于基线模型。如 F1 和 AUC 分数的显著改善所示，标签平滑在缓解类别不平衡问题方面是有效的。基于诊断的分级显示了类似的改善。

随着我们转向不同的系综模型，我们的 F1 和 AUC 得分表现持续增长。Text-CNN + LS + DR + TD 显示，与普通 Text-CNN 相比，macro-F1 得分提高了 7%,其他指标也有类似的提高。这展示了我们的集成方法的有效性。

在最后一节中，我们展示了通过以 TFIDF 特征向量的形式合并临床指南，在性能方面的进一步强大改进。这表明在没有外部临床指南的情况下，宏观 F1 评分比表现最好的集合模型增加了 7%。我们的 Text-TFIDF-CNN + LS + DR + TD 优于所有基线和集合模型，这告诉我们，将外部知识结合到分类任务中会显著提高模型的性能。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

AUC、F1 和 Jaccard 相似性得分[1]

在可解释性评估方面，我们从 5 个 ICD-10 编码中收集了 25 个样本的测试集，并由 3 名有经验的医生对它们进行了注释。我们将从我们的模型中提取的 top-k 短语与人类注释进行比较，并测量它们之间的重叠分数。结果如上表 2 所示。平均而言，我们的模型对于文本数据获得了 0.1806 的 JSC。我们的模型能够捕捉与特定疾病直接相关的短语，或者为最终预测提供间接关系。

在表格数据方面，我们选择了 LIME 发现的 k 个最重要的特征作为模型预测的证据。同样，我们计算了这些特征和人工注释之间的重叠分数，结果显示在表 2 中。人类注释者之间的平均 JSC 是 0.5，高于我们的模型和人类注释者之间的平均 JSC 0.31。总的来说，我们的模型能够捕获比人类注释者更多的特征，其中一些特征对于诊断是有用的，而人类注释者没有发现。

结论和未来工作

总的来说，我们的集成模型优于所有的基线方法，我们看到通过将人类知识融入模型中，性能得到了进一步的提高。此外，我们的模型的预测更容易解释。潜在的未来工作包括扩大编码列表，减少表格数据的特征维数，以及进一步研究添加人类知识的不同方法可以产生更好的结果。

来源:

[1] Xu，k .，Lam，m .，Pang，j .，Gao，x .，Band，c .，Mathur，p .，Papay，f .，Khanna，A.K .，Cywinski，J.B .，Maheshwari，k .和 Xie，p .，2019 年 10 月。自动 ICD 编码的多模态机器学习。在医疗保健机器学习会议(第 197-215 页)。PMLR。

原载于 2020 年 5 月 19 日。

特征提取/基于特征的情感分析

总结

其他人

#NLP365 第 141 天:NLP 论文摘要—文本攻击:自然语言处理中对抗性攻击的框架

原文：https://towardsdatascience.com/day-141-of-nlp365-nlp-papers-summary-textattack-a-framework-for-adversarial-attacks-in-aac2a282d72c?source=collection_archive---------63-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

阅读和理解研究论文就像拼凑一个未解之谜。汉斯-彼得·高斯特在 Unsplash 上拍摄的照片。

内线艾 NLP365

NLP 论文摘要是我总结 NLP 研究论文要点的系列文章

今天的 NLP 论文是 TextAttack:自然语言处理中对抗性攻击的框架 。以下是研究论文的要点。

目标和贡献

介绍了 TextAttack，这是一个 python 库，可以对自然语言处理(NLP)模型进行对抗性攻击。TextAttack 可以使用它的四个组件创建不同的攻击变体:搜索方法、目标函数、转换和约束集。TextAttack 目前支持对文本分类和蕴涵的攻击，由于其模块化设计，它可以很容易地扩展到其他 NLP 任务和模型。Github 回购在 https://github.com/QData/TextAttack这里。

NLP 攻击的组成是什么？

NLP 攻击的目标是给定一个输入序列 x，我们想要扰乱它并向它添加噪声以创建 x_adversarial，使得 x_adversarial 满足特定的目标函数和语言约束。总的来说，每个攻击都可以使用四个不同的组件来构建:

目标函数
约束集
转换
搜索方法

目标函数

该组件根据模型输出来定义攻击的成功程度，它因任务而异。它接受一个输入 x，并确定攻击是否完成。

限制

该组件设置控制扰动是否有效的约束。一个扰动只有在满足每个攻击的约束条件时才被认为是有效的。TextAttack 中目前有三种类型的约束:

编辑距离。这度量了原始 x 和敌对 x 之间的相似性。TextAttack 具有不同的编辑距离度量，包括最大 BLEU 分数差、流星分数差、Levenshtein 编辑距离等等
语法性。这是为了防止在制造敌对攻击时出现任何语法错误。这是由词性一致性和文本攻击中语法错误的最大数量决定的
语义。这试图在创建对抗性攻击 x 时保留 x 的原始含义。这由最小余弦相似性、不同的句子编码器和语言模型来控制

转换

该组件负责接收输入并返回所有可能的候选扰动。我们将转换分为两类:

白盒。可以访问模型，并可以检查其参数以帮助转换。例如，基于当前输入单词向量寻找候选替换单词
黑匣子。确定候选扰动时无权访问模型

TextAttack 中目前有四种转换:嵌入空间中的单词交换、使用 WordNet 的单词交换、带有字符转换的单词交换，以及返回多个转换结果的复合转换。

搜索方法

该组件从变换组件获取候选扰动集，并搜索满足目标函数并满足所有约束的扰动。TextAttack 目前支持以下搜索算法:

贪婪于单词重要性排名
波束搜索
遗传算法

TextAttack 的模块化允许我们将现有作品的许多不同攻击实现到一个共享库中。下表和下图展示了我们使用 TextAttack 实施的一些现有 NLP 攻击:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

TextAttack 工作原理概述[1]

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现有的前期工作[1]

使用 TextAttack 进行研究

您可以使用 TextAttack 库来衡量现有 NLP 模型的健壮性。该库可以在任何深度学习框架中实现，使用实现每个组件所需功能的基础抽象类可以很容易地形成新的攻击。这使得研究人员可以简单地在核心组件之上添加新的组件，以形成新的攻击。最后，有许多方法可以可视化连接结果，包括命令行、csv 文件、HTML 表格、演示 web 应用程序等等。

结论和未来工作

潜在的未来工作是向我们的 TextAttack 添加新的组件和攻击，以支持将来更容易的 NLP 攻击的开发和比较。

来源:

[1] Morris，J.X .，Lifland，e .，Yoo，J.Y .和 Qi，y .，2020 .文本攻击:自然语言处理中对抗性攻击的框架。 arXiv 预印本 arXiv:2005.05909 。

原载于 2020 年 5 月 20 日 https://ryanong.co.uk。

特征提取/基于特征的情感分析

总结

其他人

#NLP365 的第 142 天:NLP 论文摘要——测量新冠肺炎真实世界忧虑数据集中的情绪

原文：https://towardsdatascience.com/day-142-of-nlp365-nlp-papers-summary-measuring-emotions-in-the-covid-19-real-world-worry-d565098a0937?source=collection_archive---------64-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

阅读和理解研究论文就像拼凑一个未解之谜。汉斯-彼得·高斯特在 Unsplash 上拍摄的照片。

内线艾 NLP365

NLP 论文摘要是我总结 NLP 研究论文要点的系列文章

项目#NLP365 (+1)是我在 2020 年每天记录我的 NLP 学习旅程的地方。在这里，你可以随意查看我在过去的 280 天里学到了什么。在本文的最后，你可以找到以前的论文摘要，按自然语言处理领域分类:)

今天的 NLP 论文是 测量新冠肺炎真实世界担忧数据集 中的情绪。以下是研究论文的要点。

目标和贡献

创建了真实世界焦虑数据集(RWWD)，这是新冠肺炎第一个情绪反应的真实数据集，由 2500 个短文本和 2500 个长文本组成。数据集上的主题模型显示，英国人主要关心家庭和经济。了解新冠肺炎疫情期间公众的情绪反应非常重要，该数据集是开发一种自动分析情绪反应和担忧的方法的垫脚石。

新冠肺炎真实世界担忧数据集

RWWD 数据集捕捉了英国居民对新冠肺炎的情感反应。数据是在 4 月 6 日和 7 日收集的，我们认为这两天是情况的“高峰期”。英国处于封锁状态，死亡人数不断增加，首相鲍里斯·约翰逊进入新冠肺炎的重症监护病房。我们使用直接调查法，而不是依赖第三方注释，我们调查了 2500 名参与者，询问他们写作时的感受。RWWD 有两个版本:

长 RWWD 。参与者可以自由地写下他们的感受，想写多久就写多久
短 RWWD 。参与者被要求用推特大小的文字表达他们的感受

每位参与者都被要求从 1 到 9 给自己的情绪打分，9 表示“非常”。他们必须评估八种情绪:愤怒、焦虑、欲望、厌恶、恐惧、快乐、放松和悲伤。他们还被要求选择一种最能描述他们当前感受的情绪。下表展示了 RWWD 数据集的描述性统计数据。总体而言，焦虑、悲伤和恐惧的情绪主导了数据集。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据和情感评分的描述性统计[1]

实验和主要发现

情绪与 LIWC 范畴的相关性

自我报告的情绪和 LIWC 类别有很高的匹配率。所有的情感 LIWC 变量与其相应的自我报告的情绪都有很高的正相关性，这表明语言变量可以解释情绪得分的差异。LIWC 还深入到与每种情绪相关的子类别中。例如，情绪焦虑与生活的不同领域相关联。正相关表明，参与者的分数越高，他们在各自的 LIWC 子类别中的分数越高。焦虑与金钱、工作和死亡之间没有相关性，而焦虑情绪与家庭方面有显著的正相关，表明人们越焦虑，他们越谈论他们的家庭。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

LIWC 变量和情绪之间的相关系数[1]

总之，心理语言学单词列表和情绪之间存在微弱的正相关，这种方法最擅长测量愤怒、焦虑和担心。对于较长的文本，它比 tweet 大小的文本表现得更好，这可能是因为人们在书面文本中表达情感的能力不足。我们还探索了情绪的重叠，其中担心、恐惧和焦虑之间有很高的相关性，这与我们数据集中明显分离的结构相反。另一种看待这个问题的方式是，不同情绪的分离允许模型理清情绪，并评估常见的聚类方法来聚类不同的情绪。

人们忧虑的主题模型

我们对长文和短文本进行主题建模，并将结果展示在下面的表 3 中。对于长文本，似乎前 5 个最流行的话题与封锁规则和对就业和经济的担忧有关。对于短文，我们在五个最流行的话题中看到类似的模式，它们与政府口号和社会距离规则有关。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

五大热门话题[1]

根据我们的发现，人们似乎担心他们的工作和经济，以及他们的家人和朋友。例如，在长文本中，人们分享他们对家人和孩子缺课的担忧。在短文中，人们倾向于鼓励他人遵守社交距离规则，而不是表达他们的担忧。这意味着人们倾向于使用长文本来表达他们的担忧，而使用短文本来鼓励他人遵守规则。

预测对新冠肺炎的情绪

我们工作不同于现有的自动情绪检测工作，因为先前的工作将问题视为分类任务，而我们的工作允许在连续的尺度上估计情绪。由于我们的数据集对于神经方法来说不够大，所以我们使用了具有 TFIDF 和 POS 特征的正则化岭回归模型。TFIDF 特征基于每个语料库的 1000 个最常见的词，而 POS 特征是使用 spaCy 提取的。我们的回归模型的结果展示如下。我们的 MAE 范围是长文本从 1.26 到 1.88，短文本从 1.37 到 1.91。我们的模型在预测长文本和短文本的焦虑情绪方面表现最佳，并解释了长文本中情绪反应变量的高达 16%的方差。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

长短文本回归建模的结果[1]

总的来说，具有词汇特征的岭回归已被证明在预测新冠肺炎的情绪反应方面是有效的。与其他结果类似，与短文本相比，我们的方法在长文本上表现得更好。我们的模型在预测焦虑方面表现最佳，我们认为这是因为在我们的数据集中，这是报道最多的情绪，因此使我们的模型有偏差。

结论和未来工作

有一些潜在的未来研究想法:

探索不同的预测方法，以减轻使用词典方法的一些限制。尽管 tweet 大小的文本包含的信息少得多，但这种简短的文本仍然占据了今天网络上文本数据的很大一部分，因此能够有效地使用它来预测情绪将是非常有益的，值得未来的研究
另一方面，许多研究关注的是可用的 Twitter 数据，我们需要开始扩展到其他非 Twitter 数据，以捕捉那些在社交媒体上代表性不足的人的情绪反应
手动注释新冠肺炎主要关注的主题的数据方法
扩展数据集以覆盖更长的时间段，以捕捉情绪反应如何随着时间的推移而发展
除了 LIWC 之外，利用其他方法和字典来测量文本中的心理结构

来源:

[1] Kleinberg，b .，van der Vegt，I .和 Mozes，m .，2020 年。在新冠肺炎真实世界忧虑数据集中测量情绪。arXiv 预印本 arXiv:2004.04225 。

原载于 2020 年 5 月 21 日 https://ryanong.co.uk。

特征提取/基于特征的情感分析

总结

其他人

#NLP365 的第 143 天:NLP 论文摘要—电子健康记录摘要的无监督伪标记

原文：https://towardsdatascience.com/day-143-of-nlp365-nlp-papers-summary-unsupervised-pseudo-labeling-for-extractive-summarization-3b94920e04c6?source=collection_archive---------75-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

阅读和理解研究论文就像拼凑一个未解之谜。汉斯-彼得·高斯特在 Unsplash 上拍摄的照片。

内线艾 NLP365

NLP 论文摘要是我总结 NLP 研究论文要点的系列文章

项目#NLP365 (+1)是我在 2020 年每天记录我的 NLP 学习旅程的地方。在这里，你可以随意查看我在过去的 280 天里学到了什么。在这篇文章的最后，你可以找到以前按自然语言处理领域分类的论文摘要，你也可以订阅# NLP 365 @http://eepurl.com/gW7bBP😃

今天的 NLP 论文是 无监督伪标注用于电子健康记录上的抽取摘要 。以下是研究论文的要点。

目标和贡献

提出了一种有效的无监督生成电子健康记录伪标签的方法，该方法利用了多个电子健康记录之间的内在相关性。然后，我们使用这个伪标签来训练一个提取摘要器，以帮助医生更好地消化 EHR。具体来说，本文回答了以下三个研究问题:

如何衡量同一患者特定疾病总结的质量？
如何利用研究问题 1 生成有效精准的伪标签？
给定生成的伪标签，在医疗环境中应该使用什么模型架构进行总结？

方法学

问题定义

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们的无监督总结方法的整体架构[1]

对于大多数患者来说，随着时间的推移，存在许多记录的电子病历。我们的目标是找到这些电子病历的子集，最好地总结特定疾病的患者信息。上图展示了我们整体架构。对于第一个研究问题，我们观察到医生在阅读和总结临床笔记时倾向于关注医疗实体，因此我们建议总结临床笔记以涵盖更多相关实体。

每个 EHR 都有一个包含所有医疗实体的实体集。可以想象，每个 EHR 可能包含数百个实体，捕获所有这些实体是一个非常具有挑战性的问题。为了捕捉这些实体，我们观察到早期健康记录中的信息通常持续到后来的记录，提醒医生注意未来的治疗。受此启发，我们使用覆盖率分数来评估基于后来记录的 EHR 的质量。我们使用逆文档频率来衡量实体在整个语料库中的重要性，并通过使用 PubMed 上训练的单词嵌入对实体和 EHR 中的句子进行编码来衡量实体和句子之间的语义相似性。

整数线性规划的伪标记

我们使用具有长度约束的整数线性规划来使用后来的记录为 EHR 生成二进制伪标签。下面是最后一个优化问题:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

优化问题[1]

总结模型

在这里，我们使用生成的伪标签来训练一个有监督的提取总结模型来总结病历。该模型由两层 biGRU 组成，其中第一层集中在单词层并生成句子嵌入，第二层集中在句子层，使用第一层的输出并计算每个句子的最终表示。对于输出层，我们有逻辑函数，它有几个特征，包括内容、显著性、新颖性和位置。突出特征将帮助我们识别当前句子对整个笔记有多重要，新颖特征帮助我们减少冗余。

实验和结果

我们的评估数据集是重症监护医疗信息集市 III (MIMIC-III)。我们总共提取了 5875 例包含至少一个与心脏病相关的 ICD 诊断代码的住院病例。我们还利用了记录事件表中的临床记录。我们聘请了一位经验丰富的医生来手动注释 25 个临床笔记，并在推断时间内比较我们的模型的结果。我们的评估指标是 ROUGE 分数的标准汇总指标。

模型比较

我们的方法是无监督的，因为我们不需要任何外部注释，所以我们所有的基线模型比较都是无监督的:

最-实体(ME) 。挑选大多数医学实体的句子
TF-IDF + MMR ™ 。TFIDF 的扩展旨在减少作为 MMR 度量的信息重复，减少与已经选择的句子具有高相似性的句子的权重
我们自己模型的消融变异。我们有没有新颖性特征的模型，没有位置特征的模型，以及完整的模型

结果

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

总体总结结果[1]

如上面的结果表所示，我们的模型相对于所有基线模型获得了最高的 ROUGE 分数。我们还观察到冗余严重影响我们的总结模型。MMR 和新颖性特征显著提高了 TF-IDF 和我们的模型的性能。位置功能也被证明可以提高性能，这是可以预料的，因为临床记录通常是用结构化模板编写的。

下表展示了我们的模型提取的句子的一些示例，并将其与医生的注释进行了比较。从表中我们可以看出，ME 和 TM 倾向于选择实体较多的长句，这是意料之中的。这意味着他们都没有选择像句子 1 和 2 这样重要的短句。我们的模型也有这个问题，但没那么严重。TM 的缺点是，通过使用 TFIDF，当句子包含不常用的术语时，它会误导模型将其分类为重要的，但在医学领域，术语通常非常具体，因此尽管不常用，但它们可能与特定疾病无关。我们的模型被显示选择与我们的医生的注释非常相似的句子。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

不同总结方法的定性分析[1]

结论和未来工作

总的来说，我们探讨了总结 EHR 的三个研究问题:

使用医疗实体来涵盖一名患者的多个电子病历之间的内在关联
开发了一个优化目标，并使用 ILP 生成伪标签
使用生成的伪标签来训练我们的监督提取摘要模型

潜在的未来工作可能涉及添加新的功能，如覆盖或注意机制，以避免重复和特别注意句子中重要的部分。

来源:

[1]刘，x，徐，k，谢，p，邢，e，2018 .用于电子健康记录摘要的无监督伪标记。 arXiv 预印本 arXiv:1811.08040 。

原载于 2020 年 5 月 22 日。

特征提取/基于特征的情感分析

总结

其他人

#NLP365 的第 144 天:NLP 论文摘要-关注医学本体论:临床抽象摘要的内容选择

原文：https://towardsdatascience.com/day-144-of-nlp365-nlp-papers-summary-attend-to-medical-ontologies-content-selection-for-ff7cded5d95b?source=collection_archive---------59-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

阅读和理解研究论文就像拼凑一个未解之谜。汉斯-彼得·高斯特在 Unsplash 上拍摄的照片。

内线艾 NLP365

NLP 论文摘要是我总结 NLP 研究论文要点的系列文章

今天的 NLP 论文是 关注医学本体:临床抽象概括的内容选择 。以下是研究论文的要点。

目标和贡献

传统的抽象文本摘要的主要问题是从源文档中选择关键信息。提出了一种通过在摘要器中加入显著的本体术语来选择临床摘要内容的方法。内容选择被视为单词级序列标记问题。这已被证明改善了基于 MIMIC-CXR 和 OpenI 数据集的 SOTA 结果。我们还获得了专家的评价，并表明我们的方法产生了一个良好的质量摘要相比，地面真相。

放射学报告总结

放射学报告包含两个重要部分:发现和印象。发现包括成像研究的详细观察和解释，而印象总结了最关键的发现。在该行业中，大多数临床医生只阅读印象部分，因为他们有有限的时间来回顾冗长的发现部分。印象生成的自动化和改进可以显著改进放射科医生的工作流程。

方法学

我们提出的模型有两个主要部分:

内容选择器
总结模型

内容选择器

这一部分旨在选择报告中最重要的本体概念，特别是调查结果部分。这可以被视为单词级提取任务，其中我们想要提取可能包含在印象部分中的单词。实际上，如果满足两个标准，每个单词都被标记为 1:

这个词是一个本体论术语
这个词被直接复制到印象中

这使我们能够捕捉每个单词的复制可能性，我们用它来衡量单词的重要性。整体架构是一个位于 BERT 嵌入层之上的 biLSTM(利用上下文嵌入的优势),在推理期间，我们的内容选择器将输出源序列中每个标记的选择概率。

总结模型

我们的汇总模型有两个编码器和一个解码器(见下图):

发现编码器。这是一个 biLSTM，它在发现部分中包含单词 embeddings，并生成一个编码的隐藏表示
本体编码器。这是一个 LSTM，它接收已识别的本体术语(通过我们的内容选择器)并生成一个固定的上下文向量，即我们的本体向量
印象解码器。这是一个给人留下印象的 LSTM

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

总结模型概述[1]

接下来，我们有一个过滤门，使用本体向量来提炼发现词表示，以产生本体感知的词表示。过滤门在每一步连接单词 x 的当前隐藏状态和固定本体向量，并通过具有 sigmoid 激活函数的线性来处理这些。为了计算本体感知的单词表示，我们然后取过滤门的输出，并与单词 x 的当前隐藏状态执行逐元素乘法。

我们的解码器是一个产生印象的 LSTM。解码器将使用先前的隐藏状态和先前生成的标记来计算当前的解码状态。解码器还将使用当前解码状态来计算本体感知单词表示上的注意力分布。注意力分布然后被用于计算上下文向量。最后，上下文向量和当前解码状态被馈入前馈神经网络，以生成下一个令牌或从发现中复制。

实验和结果

我们有两个评估数据集:MIMIC-CXR 和 OpenI。MIMIC-CXR 有 107372 份放射学报告，OpenI 有 3366 份报告。对于放射学词汇，我们使用 RadLex，它由 68534 个放射学术语组成。

模型比较

我们有两个抽象概括模型(LSA 和 NEUSUM)和三个抽象概括模型(指针生成器(PG)、本体感知 PG 和 BOTTOMSUM)。BOTTOMSUM 与我们的架构最相关，因为它使用了一个单独的内容选择器来进行抽象文本摘要。

结果

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

胭脂结果在模仿——CXR[1]

如上表 1 所示，我们的模型明显优于所有提取和抽象基线模型。抽象模型明显优于提取模型，表明人类书写的摘要是抽象形成的，而不仅仅是从源中选择句子。PG 和本体感知 PG 之间在 ROUGE 性能上的差异展示了在摘要模型中结合显著的本体术语的有效性和有用性。正如预期的那样，BOTTOMSUM 在基线模型中取得了最好的结果，因为它与我们的模型具有最相似的架构。我们相信我们的模型优于 BOTTOMSUM 的原因是因为我们有一个基于本体单词的精炼单词表示的中间阶段。下面的表 3 展示了将内容选择纳入汇总模型的好处。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

包含和不包含内容选择的胭脂结果[1]

为了评估我们模型的通用性，我们还在 OpenI 上对比 BOTTOMSUM 评估了我们的模型，结果显示在下面的表 2 中。如图所示，我们的模型也能够胜过 OpenI 中的 BOTTOMSUM，说明了我们的模型的一般化。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

总结胭脂结果[1]

专家评估

在这里，我们随机抽样了 100 个生成的印象及其相关的金牌摘要。我们请了三位专家对这些印象的可读性、准确性和完整性进行评分，评分标准为 1-3(3 为最佳)。结果显示在下图中。我们观察到，有超过 80%的生成印象被评分为与相关联的人类书写印象一样好。73%和 71%的我们的印象在可读性和准确性以及与人类书写印象的联系方面得分为 3，然而只有 62%的我们的印象在完整性方面得分为 3。我们认为这是由于发现中被认为重要的东西的主观性。总的来说，我们生成的印象似乎是高质量的，然而，在生成的印象和人类书写的印象之间仍然有差距。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

100 份人工评分放射学报告之间印象差异的直方图和箭头图[1]

来源:

[1]s . sotu DEH，n . Goharian 和 r . w . Filice，2020 年。关注医学本体论:临床摘要的内容选择。arXiv 预印本 arXiv:2005.00163 。

原载于 2020 年 5 月 23 日 https://ryanong.co.uk**的 。

特征提取/基于特征的情感分析

总结

其他人

第 145 天的#NLP365: NLP 论文摘要 SUPERT:迈向多文档摘要的无监督评估度量的新前沿

原文：https://towardsdatascience.com/day-145-of-nlp365-nlp-papers-summary-supert-towards-new-frontiers-in-unsupervised-evaluation-188295f82ce5?source=collection_archive---------61-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

阅读和理解研究论文就像拼凑一个未解之谜。汉斯-彼得·高斯特在 Unsplash 上拍摄的照片。

内线艾 NLP365

NLP 论文摘要是我总结 NLP 研究论文要点的系列文章

今天的 NLP 论文是 SUPERT:迈向多文档摘要的无监督评估度量的新前沿 。以下是研究论文的要点。

目标和贡献

提出了 SUPERT，一种通过测量摘要和伪引用摘要之间的语义相似性来评估多文档摘要的无监督评估度量。伪引用摘要是通过使用上下文嵌入和软标记对齐从源文档中选择显著句子来生成的。SUPERT 能够实现与人类评估 18–39%的更好的相关性。我们使用 SUPERT 和一个强化学习摘要器，与 SOTA 无监督摘要器相比，它产生了很好的性能。这展示了 SUPERT 的有效性，也意味着我们可以从无限数量的文档中创建许多参考摘要，以增加数据集的大小。

数据集和评估指标

我们使用了两个多文档汇总数据集:TAC’08 和 TAC’09。两个 TAC 数据集包含大约 45+个主题，每个主题有 10 篇新闻文章、4 个参考摘要和 55+个机器生成的摘要。我们的评估标准是三个不同的相关系数:皮尔森的，斯皮尔曼的和肯德尔的。

模型比较

TFIDF
JS 发散。测量源和摘要中单词分布之间的 JS 差异
死神
余弦-埃尔莫。语境化词语嵌入
波姆 19
ROUGE-1 和 ROUGE-2 以及 MoverScore 。性能测量上限

使用伪引用和 bERT (SUPERT)的汇总评估

SUPERT 测量多文档摘要的相关性，它测量来自源文档的摘要中包含多少重要信息。我们用两个步骤来衡量相关性:

从源文档中找出突出的句子
测量伪引用(步骤 1)和生成的摘要之间的语义重叠

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

SUPERT 的工作流程[1]

下面的结果表展示了所有基准方法在显著低于性能上限时的表现。令人惊讶的是，基于嵌入的方法比基于词典的方法表现更差。这告诉我们，现有的单文档评估度量在评估多文档摘要时是无效的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

不同评估指标和人员评级之间的汇总级相关性[1]

用情境化嵌入度量相似性

我们通过探索不同的文本编码器，如 BERT、ROBERTa、ALBERT 和 s BERT，扩展了余弦 ELMo。结果显示如下。如图所示，SBERT 作为具有余弦相似性的文本编码器产生了最高相关性的生成摘要。然而，与基于词典的方法相比，这仍然表现不佳。我们探索的另一个扩展是使用单词移动距离(WMDs)来度量两个文档之间的语义相似性，而不是使用余弦相似性。先前的工作已经证明 WMDs 产生了更强的性能，并且我们下面的结果支持了带 SBERT 的 as WMD(M _ SBERT)明显优于它的余弦相似性对应物和所有基于词典的方法。这让我们想到了计算文档间语义相似度的终极方法，那就是使用 SBERT 和 WMD。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

上下文嵌入度量的性能[1]

构建伪引用

前面表格中的结果显示了无监督评估和基于参考的评估之间的巨大性能差异。这表明我们仍然需要参考文献摘要，因此我们探索了建立伪参考文献的不同方法。

首先，我们探索了两种建立基线结果的简单策略:选择 N 个随机句子或前 N 个句子。结果显示如下。结果显示了随机选择的句子的较差性能，我们应该选择前 10-15 个句子作为伪引用，因为它优于基于词汇的方法和我们的 M_SBERT 方法。这也说明了新闻文章中的立场偏差。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

通过随机选择句子建立伪引用[1]

其次，我们探索了两种基于图的方法来构建伪引用:位置不可知图和位置感知图。对于位置不可知的图，我们使用 SBERT (SLR)扩展了 LexRank 来度量余弦相似性。我们还探索了相似传播聚类算法，该算法对句子进行聚类，并选择每个聚类的中心来建立伪引用。这种聚类算法不需要我们预设聚类数。对于单反和 SC，我们有两种变体:个体图和全局图。个体图为每个源文档构建一个图，并选择前 K 个句子。全局图使用来自同一主题的所有源文档的所有句子构建一个图，并选择前 M 个句子。

对于位置感知图，我们使用 SBERT (SPS)扩展了 PacSum 来度量句子相似性，并且类似地，考虑了个体和全局图版本。PacSum 选择语义中心的句子，这意味着它与后面的句子具有高平均相似度，而与前面的句子具有低平均相似度。此外，我们还提出了 Top + Clique (TC ),它选择前 N 个句子和语义中心句来构建伪引用。TC 是这样工作的:

将每个文档中的前 N 个句子标记为显著
构建一个连接高度相似的非前 N 名句子的图表
从图中识别集团，并从每个集团中选择语义中心句作为潜在的显著句
对于每个潜在的显著句子，将其与前 N 个句子进行比较，如果它与前 N 个句子不高度相似，则将其标记为显著

下表展示了位置不可知图和位置感知图的结果。所有方法(除了 SC_G)都优于上表 1 中的基准模型。我们的位置不可知图表现不如位置感知图。此外，我们的位置感知图表现不如表 3 中选择前 N 个句子的简单句子提取方法。这向我们表明，新闻中的位置偏向是非常强烈的，它仍然是选择正面信息的最有效的方法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用位置不可知和位置感知构建伪引用[1]

引导强化学习

我们使用我们的新的无监督评估度量来指导基于 RL 的多文档摘要器神经时间差异(NTD)的训练。我们考虑了三个无监督的奖励函数:JS，REAPER 和 SUPERT (SP)。SUPERT 从每个源文档中选择前 10-15 个句子作为伪引用，并使用 SBERT 来测量摘要和伪引用之间的语义相似性。结果如下所示，使用 SUPERT 的 NTD 产生了最强的结果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

NTD 2008 年和 2009 年 TAC 的 ROUGE 结果[1]

来源:

[1]高，杨，赵，魏和埃格，s，2020 .SUPERT:迈向多文档摘要的无监督评估度量的新前沿。arXiv 预印本 arXiv:2005.03724 。

原载于 2020 年 5 月 24 日 https://ryanong.co.uk。

特征提取/基于特征的情感分析

总结

其他人

#NLP365 的第 146 天:NLP 论文摘要——探索小说章节摘要的内容选择

原文：https://towardsdatascience.com/day-146-of-nlp365-nlp-papers-summary-exploring-content-selection-in-summarization-of-novel-a13fa1f6111b?source=collection_archive---------74-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

阅读和理解研究论文就像拼凑一个未解之谜。汉斯-彼得·高斯特在 Unsplash 上拍摄的照片。

内线艾 NLP365

NLP 论文摘要是我总结 NLP 研究论文要点的系列文章

今天的 NLP 论文是 探讨小说章节 摘要中的内容选择。以下是研究论文的要点。

目标和贡献

提出了一个新的总结任务，从在线学习指南中总结小说章节。由于源文件的长度和更高层次的转述，这比新闻摘要更具挑战性。本文的贡献如下:

提出了一个新的概括小说章节的概括任务
提出了一种新的度量标准，用于将参考摘要中的句子与章节中的句子对齐，以创建高质量的“基础事实”摘要来训练我们的摘要模型。通过 ROUGE 分数和金字塔分析，这已被证明比以前的方法有所改进

资料组

我们从五个不同的学习指南中收集章节/摘要对:

巴伦书笔记(BB)
书狼
克利夫斯 Notes(中国)
坡度保护器(GS)
小说指南(NG)

我们进行了两轮过滤来处理数据。首先，我们删除任何超过 700 个句子的参考文本，因为它们太大了。其次，我们删除过于冗长的摘要(压缩比小于 2)。我们的最终章节/摘要对总数是 8088 (6288 / 938 / 862)。培训数据统计如下所示。章节正文平均比新闻文章长 7 倍，章节摘要比新闻摘要长 8 倍。此外，对于小说，摘要和章节之间的平均单词重叠率为 33.7%，而对于 CNN/DailyMail news，则为 68.7%，显示了章节摘要中的高水平转述。下面的示例参考摘要中显示了这种大量的解释。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据集的描述性统计[1]

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

摘要示例[1]

对齐实验

相似性度量

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

参考摘要 vs R-L 贪婪稳定的例子[1]

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

ROUGE-L 和众包 F1 的内容得分重叠[1]

由于基本事实摘要是抽象的，我们需要创建黄金提取摘要来训练我们的提取摘要模型。这就需要我们把章节和摘要中的句子对齐。为了对齐句子，我们首先需要一个度量来测量相似性。先前的工作大量使用 ROUGE 分数作为相似性度量。然而，胭脂分数分配相等的权重给每个字，然而，我们相信我们应该分配较高的权重给重要的字。为了结合这一点，我们使用平滑的逆频率加权方案，并将其应用于取 ROUGE-1、2 和 L 的平均值，以生成提取(R-wtd)。我们将这种 R-wtd 方法与其他相似性度量进行了比较，如 ROUGE-1、ROUGE-L、BERT 以及未加权和加权的 ROUGE + METEOR (RM)。我们使用 ROUGE-L F1 评分对这些相似性度量进行了自动评估和人工评估。需要人工评估来对照对齐的句子评估每个参考摘要。结果如下所示，R-wtd 在相似性指标中得分最高。

对齐方法

一旦我们建立了我们的相似性度量，我们现在探索不同的比对方法，以最终生成我们的黄金提取摘要。以前的工作中有两种主要方法:

汇总级对齐。选择最佳句子，与摘要进行比较
句子级对齐。选择最佳句子，与摘要中的每个句子进行比较

对于摘要级对齐，我们有两种变体:选择句子直到字数限制(WL)和选择句子直到胭脂分数不再增加(WS 摘要)。对于句子级对齐，我们有两种变体:Gale-Shapley 稳定匹配算法和 greedy 算法。结果如下所示，表明句子级稳定算法的性能明显优于其他对齐方法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对验证集的人工评估[1]

实验和结果

为了评估，我们有三个提取模型:

分级 CNN-LSTM (CB)
Seq2seq 注意(K)
RNN(北)

由于我们的数据分析表明，摘要句通常选自不同的章节，因此我们实验了在单词和成分级别应用的对齐方法。我们的评估指标是 ROUGE-1、2、L 和 METEOR。每章有 2-5 个参考摘要，我们根据所有参考摘要评估我们生成的摘要。

结果

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

胭脂和流星的分数[1]

上述结果比较了三种不同提取模型的性能以及使用不同对齐方法的性能差异。我们可以看到，我们提出的比对方法在所有三个提取模型中都优于基线方法。使用我们的提取靶标，所有三个模型似乎表现相似，表明选择合适的方法产生提取靶标的重要性。鉴于 ROUGE 的不可靠性，我们进行了人工评估，并在我们的最佳性能模型(CB)上计算了每个比对方法的金字塔分数。人群工作者被要求识别哪个生成的概要最好地传达了采样的参考概要内容。结果显示如下。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

金字塔评价[1]

结论和未来工作

我们已经表明，具有 R-wtd 相似性度量的句子级稳定匹配对齐方法比先前计算 gold 提取摘要的方法执行得更好。然而，在自动和人工评估中，关于提取在句子还是成分级别更好似乎存在矛盾。我们推测，这可能是因为我们在对提取成分的概要进行评分时没有包括额外的上下文，因此不相关的上下文不会违背系统，而在人类评估中，我们包括句子上下文，因此在生成的概要中包括较少的成分。

在未来的工作中，我们计划研究如何在不包含不相关上下文的情况下，将成分组合成流畅的句子。我们也想探索抽象概括，检查语言模型在我们的领域是否有效。这可能具有挑战性，因为语言模型通常有 512 个标记的限制。截断我们的文档可能会损害我们的新章节摘要模型的性能。

来源:

[1]f .拉德哈克，b .李，y .奥奈赞和 k .麦克欧文，2020 年。探索小说章节摘要的内容选择。arXiv 预印本 arXiv:2005.01840 。

原载于 2020 年 5 月 25 日。

特征提取/基于特征的情感分析

总结

其他人

#NLP365 的第 147 天:NLP 论文摘要——一石二鸟:从结构化和非结构化数据生成文本的简单统一模型

原文：https://towardsdatascience.com/day-147-of-nlp365-nlp-papers-summary-two-birds-one-stone-a-simple-unified-model-for-text-35253aa8289e?source=collection_archive---------82-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

阅读和理解研究论文就像拼凑一个未解之谜。汉斯-彼得·高斯特在 Unsplash 上拍摄的照片。

内线艾 NLP365

NLP 论文摘要是我总结 NLP 研究论文要点的系列文章

项目#NLP365 (+1)是我在 2020 年每天记录我的 NLP 学习旅程的地方。在这里，你可以随意查看我在过去的 290 天里学到了什么。在这篇文章的最后，你可以找到以前按自然语言处理领域分类的论文摘要，你也可以订阅# NLP 365 @http://eepurl.com/gW7bBP😃

今天的 NLP 论文是 一石二鸟:一个简单、统一的模型，用于从结构化和非结构化数据生成文本 。以下是研究论文的要点。

目标和贡献

展示了一个简单的基于双向注意力的 seq2seq 模型，该模型具有通过指数移动平均(EMA)训练的复制机制，可以在表格到文本生成和神经问题生成(NQG)中实现 SOTA 结果。我们表明，适当微调的简单模型也可以实现 SOTA 结果，而不是不断增加神经网络的复杂性，这鼓励我们在引入复杂模型之前彻底探索简单模型。

什么是表格到文本的生成任务？

目标是生成表的描述。具体来说，在本文中，我们探索了基于维基百科信息框生成传记，如下所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

信息框的例子[1]

什么是神经问题生成(NQG)任务？

目标是从源文档中生成正确的有意义的问题，并且目标答案在其中。在本文中，我们使用了如下所示的小队数据集。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来自班数据集的样本[1]

具有注意和复制机制的双向 Seq2Seq

模型架构有 3 个主要组件:

编码器。编码器是一个 biLSTM，它将单词嵌入和附加的特定于任务的特性结合在一起。对于表到文本的生成，额外的特性是字段名和位置信息。对于 NQG，额外的特征是单个比特，指示该单词是否属于目标答案。
基于注意力的解码器。我们的解码器使用标准的注意机制和复制机制
指数移动平均线。这是模型性能的关键驱动因素。EMA 也称为时间平均。这里，我们有两组参数:a)训练参数和 b)评估参数，它是通过采用训练参数的指数加权移动平均来计算的，由衰减率控制。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

整体架构[1]

实验和结果

我们使用 WIKIBIO 数据集进行表格到文本的生成，使用 SQUAD 数据集进行 NQG。WIKIBIO 数据集拥有超过 720，000 篇维基百科文章，并使用每篇文章的第一句话作为 infobox 的基本事实描述。SQUAD 数据集拥有 536 篇维基百科文章和超过 100，000 对问答。对于评估指标，我们使用 BLEU-4、METEOR、ROUGE-4 和 ROUGE-L。

结果

表格到文本生成和 NQG 的结果如下表所示。总的来说，我们的模型(没有 EMA)在所有指标上的表现都与之前的工作有竞争力。通过额外的 EMA 技术，我们的模型能够在除了 BLEU-4 以外的所有指标中实现 SOTA 结果，在 BLEU-4 中，我们的模型仍然具有竞争力。这着重强调了一个事实，即复杂的架构并不总是最好的方法，我们应该在探索更复杂的模型之前投入更多的时间来探索和改进基本模型，以获得更好的结果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

NQG [1]的测试集结果

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

表格到文本生成的测试集结果[1]

结论和未来工作

潜在的未来工作将是调查 EMA 技术在变压器模型上的使用，以及进行类似的研究，以检查在其他 NLP 任务中对复杂架构的需求。

来源:

[1]:沙希迪，h .，李，m .和林，j .，2019。一石二鸟:从结构化和非结构化数据生成文本的简单统一模型。 arXiv 预印本 arXiv:1909.10158 。

原载于 2020 年 5 月 26 日 https://ryanong.co.uk**的 。

特征提取/基于特征的情感分析

总结

其他人

第 148 天:NLP 论文摘要—一种基于转换器的源代码摘要方法

原文：https://towardsdatascience.com/day-148-nlp-papers-summary-a-transformer-based-approach-for-source-code-summarization-f07ecdeacf40?source=collection_archive---------76-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

阅读和理解研究论文就像拼凑一个未解之谜。汉斯-彼得·高斯特在号航天飞机上拍摄的照片。

内线 AI NLP365

自然语言处理论文摘要是一个系列，在这里我总结了自然语言处理研究论文的要点

项目#NLP365 (+1)是我记录 2020 年每一天 NLP 学习历程的地方。请随意在此查看我在过去 300 天所学的内容。在本文的最后，您可以找到以前的论文摘要(按 NLP 领域分组，您可以订阅# NLP 365 @http://eepurl.com/gW7bBP😃

今天的 NLP 论文是 一种基于转换器的源代码摘要方法 。以下是该研究论文的主要收获。

目标和贡献

利用一个简单的基于变压器的模型与相对位置表示和复制注意机制，以生成源代码总结的 SOTA 结果。我们发现源代码标记位置的绝对编码阻碍了总结的性能，而相对编码显著提高了性能。

什么是源代码摘要？

目标是对源代码进行编码，并生成描述程序功能的可读摘要。

数据集

我们有两个评估数据集:来自 GitHub 的 Java 和 Python 数据集，如下所示。我们的评估指标为 BLEU、METEOR 和 ROUGE-L。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

描述性数据集统计[1]

方法学

我们提出的模型是普通的变压器。我们将代码和概要编码为嵌入序列。普通的 Transformer 在编码器和解码器中堆叠了多头注意力和线性变换层。我们还在 Transformer 中包含了复制注意事项，以使模型能够从源代码中复制稀有令牌。

位置表示

在这里，我们探索了源代码标记顺序上的绝对位置编码和 Transformer 中的成对关系编码。绝对位置编码旨在捕获源标记的顺序信息，然而，我们发现顺序信息实际上对学习源代码表示没有帮助，并且会导致错误的总结。我们发现，正是令牌之间的相互作用影响了源代码的含义，这也是我们探索成对关系编码的原因。为了捕获输入令牌之间的这种成对关系，我们为每个令牌捕获两个位置 I 和 j 的相对位置表示。

结果

如下所示，我们的完整模型优于所有基线模型。事实上，在没有 CamelCase 和 snake_case 代码标记处理的数据集上训练的基本模型，在 ROUGE-L 度量上优于所有基线模型。我们的基线模型没有包含复制注意机制，我们表明复制注意机制确实提高了我们完整模型的性能。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

BLEU、METEOR 和 ROUGE-L 的总体结果-我们的方法与基线方法的比较[1]

消融研究

位置表示的影响

下面的表 3 展示了对源和目标执行绝对位置编码的性能。它展示了当包含绝对位置编码时性能的下降。表 4 展示了学习源代码标记之间成对关系的好处。我们尝试了不同的裁剪距离，以及是否应该包含双向信息。不同裁剪距离的性能与我们完整模型的性能非常相似，包含方向信息的模型优于不包含方向信息的模型。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

消融研究-变压器的相对位置表示[1]

不同的模型大小和层数

我们下面的结果表明，更深的模型(更多层)比更宽的模型(每层更多神经元)表现更好。我们怀疑更深的模型在源代码总结中更有益，因为它更多地依赖语义信息而不是句法信息。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

消融研究 Java 数据集基础模型的隐藏大小和层数[1]

定性分析

我们下面的定性例子展示了复制注意力机制使模型能够用更合适的关键词生成更短的摘要。我们观察到，当我们使用相对位置表示时，源代码中的频繁标记具有较高的复制概率。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Java 与 Python 数据集的定性示例[1]

结论和今后的工作

未来的一项潜在工作是将代码结构合并到 Transformer 中，并将其应用到其他代码序列生成任务中，例如为源代码更改生成提交消息。

来源:

[1] Ahmad，W.U .，Chakraborty，s .，Ray，b .和 Chang，K.W .，2020 年。一种基于转换器的源代码摘要方法。arXiv 预印本 arXiv:2005.00653 。

原载于 2020 年 5 月 27 日。

特征提取/基于特征的情感分析

总结

其他人

#NLP365 第 149 天:NLP 论文摘要——mooc cube:mooc cs 中 NLP 应用的大规模数据仓库

原文：https://towardsdatascience.com/day-149-of-nlp365-nlp-papers-summary-mooccube-a-large-scale-data-repository-for-nlp-3fbcab37bfef?source=collection_archive---------84-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

阅读和理解研究论文就像拼凑一个未解之谜。汉斯-彼得·高斯特在 Unsplash 上拍摄的照片。

内线艾 NLP365

NLP 论文摘要是我总结 NLP 研究论文要点的系列文章

项目#NLP365 (+1)是我在 2020 年每天记录我的 NLP 学习旅程的地方。请随意查看我在过去 305 天里学到的东西。在这篇文章的最后，你可以找到以前按自然语言处理领域分类的论文摘要，你也可以订阅# NLP 365 @http://eepurl.com/gW7bBP😃

今天的 NLP 论文是MOOCCube:MOOCs中 NLP 应用的大规模数据仓库。以下是研究论文的要点。

目标和贡献

展示了 MOOCCube，这是一个大型多维数据存储库，包含 700 多门 MOOC 课程、10 万个概念和 800 万个学生行为以及外部资源。我们执行了一项初步的先决条件关系发现任务，以展示 MOOCCube 的潜力，我们希望这个数据存储库将为教育应用(如课程概念提取)开辟许多 NLP 和 AI 研究。

MOOCCube

MOOCCube 与现有的教育数据集有何不同？

大型多维数据集。MOOCCube 涵盖了 700 门课程、38K 个视频、200，000 名学生和 100，000 个概念以及 300，000 个关系实例
高覆盖率。MOOCCube 涵盖了所有的属性和关系，因为数据是从真实的 MOOC 网站获得的。如下所示，MOOCCube 的一个数据单元以课程、概念和学生为单位，代表学生 s 在课程 c 中学习概念 k。这允许 MOOCCube 提供这些数据单元的不同组合
MOOCCube 可用于为不同任务构建数据集，如辍学预测和概念提取，而以前这是两个不同的数据集

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

MOOCCube [1]

数据集集合

MOOCCube 分为三个主要方面:

课程
概念
学生

课程提取

课程是一系列预先录制的视频，对于每个课程，我们提取了大纲、视频列表、教师和组织。我们提取了视频顺序和字幕，并使用 Wikidata 记录了教师和组织的详细描述。

概念和概念图

在这个维度中，我们旨在提取课程视频中教授的知识概念。对于每个视频，我们从字幕中提取 10 个最具代表性的课程理念。对于每个概念，我们使用 Wikidata 记录概念描述，并使用 AMiner 搜索前 10 篇相关论文。最后，我们建立了一个新的概念分类法，用先决条件链作为概念图来捕捉概念之间的语义关系。先决条件链是这样形成的，如果概念 A 有助于理解概念 B，那么概念 A 与概念 B 有一个先决条件关系。要建立这个先决条件链:

使用分类信息和视频依赖性减少候选概念对的数量
手动注释和带注释的标签用于训练不同的模型，以进一步构建更大距离的监督先决数据集

学生行为

这个维度倾向于支持课程推荐、视频导航、辍学预测以及课程与概念之间关系的研究。在这里，我们保存了 2017-2019 年近 20 万用户的注册记录和视频观看日志。视频观看日志由观看视频时的学生行为组成，例如常见的视频点、点击某个句子等。我们用用户标识匿名用户。

数据分析

下图比较了我们的 MOOCCube 数据集与其他教育数据集。我们的 MOOCCube 拥有最大的数据规模，在不同维度上，尤其是概念图维度上，都比以前的教育数据集大得多。此外，我们的 MOOCCube 涵盖了 MOOC 环境中所有不同类型的数据，这与之前涵盖学生行为或课程内容的教育数据集形成了对比。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现有教育数据集的描述性统计[1]

下图展示了我们的概念分布和注册用户的课程分布。总的来说，我们将概念分为 24 个领域。我们的数据集在工程课程中比自然科学中有更多的概念。在图 3 中，显示了 451 门课程注册了超过 100 个用户，并且超过 70%的用户观看了超过 10 个视频。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

概念分布[1]

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

课程注册和视频观看的分布明细[1]

应用

作为使用 MOOCCube 的示例应用，我们执行了先决条件关系发现。这就是旨在回答“一个人应该先学什么”这一问题的任务。我们使用 MOOCCube 数据集再现了不同的方法，结果显示在以下先决条件中，表现出最好的 F1 分数，我们相信 MOOCCube 数据的高覆盖率有助于发现先决条件关系。此外，我们的两个基准 PCNN 和 PRNN 产生了有竞争力的结果，展示了我们的数据集的有效性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

精确度、召回率和 F1 值[1]

结论和未来工作

潜在的未来工作可能是 a)利用 MOOCCube 的更多数据类型来促进现有主题，b)为现有任务采用高级模型，以及 c)在在线教育领域发现更多创新的 NLP 应用。

来源:

[1]于，李，刘，张，钟，秦，王，杨，罗，李，李，刘，张，唐，2020 年 7 月.mooc cube:mooc 中 NLP 应用的大规模数据仓库。在计算语言学协会第 58 届年会的会议录(第 3135–3142 页)。

原载于 2020 年 5 月 28 日。

特征提取/基于特征的情感分析

总结

其他人

#NLP365 的第 150 天:NLP 论文摘要——他们会不会——他们不会——他们:一个用于 Twitter 上姿态检测的非常大的数据集

原文：https://towardsdatascience.com/day-150-of-nlp365-nlp-papers-summary-will-they-wont-they-a-very-large-dataset-for-stance-aa877c260b62?source=collection_archive---------74-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

阅读和理解研究论文就像拼凑一个未解之谜。汉斯-彼得·高斯特在 Unsplash 上拍摄的照片。

内线艾 NLP365

NLP 论文摘要是我总结 NLP 研究论文要点的系列文章

今天的 NLP 论文是Will-They-Won-Won-They:Twitter 上一个非常大的姿态检测数据集 。以下是研究论文的要点。

目标和贡献

提交最大的姿势检测数据集 Will-They-Won-Won-They(WT-WT)，其中包含 51，284 条推文。所有注释都由专家手动标注，确保模型的高质量评估。我们还将 11 个现有的 SOTA 模型应用于我们的数据集，并表明现有的 SOTA 模型与我们的数据集相矛盾，表明我们的数据集对进一步开发模型的未来研究是有用的。最后，我们对娱乐业中的 M&A 操作进行了另一种诠释，并探讨了我们的最佳表现模型在应用于不同领域时的稳健性。我们观察到，我们的模型很难适应哪怕是很小的畴变。

WT-WT 数据集

该数据集涵盖了金融领域谣言验证的立场检测，特别是在并购领域。这是因为 M&A 过程有许多阶段，Twitter 用户对每个阶段的看法演变与谣言验证相似。构建 WT-WT 数据集的过程包括 4 个不同的步骤，包括 5 种不同的 M&A 运算，如下图所示。

资料检索
任务定义和注释指南
数据注释
质量评估

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

不同的有针对性的 M&A 行动[1]

资料检索

在这里，对于每个操作，我们首先使用 Selenium 来检索以下推文的推文 id:

提到两家公司名称或缩写的推文
提到其中一家公司的推文带有预定义的特定合并条款

日期范围涵盖拟议合并前的一年和合并发生后的六个月。然后，我们使用 Tweepy 通过 Tweets IDs 检索 tweet 的文本。

任务定义和注释指南

我们有四个姿势标签:

支持。支持合并的推特
反驳。对合并表示怀疑的推文
评论。对合并发表评论但不支持或反驳的推文
不相关。与合并无关的推文

根据目标实体的不同，同一样本可以有不同的标签。此外，我们的立场检测不同于有针对性的情绪分析，因为有人可以在不表达合并是否会发生的情况下推断出对合并的情绪。

数据注释

数据注释过程是由剑桥大学的 10 名金融学者分批对 2000 个样本进行的。

质量评估

注释者对之间的平均相关性是 0.67，显示了数据的高质量。我们还要求一位领域专家对 3000 条推文样本进行标注，并以此作为人类评估的上限。支持和评论样本在注释者之间引起了最大的分歧，因为我们认为这样的样本大多是主观的。不相关标签的包含导致了不相关样本和评论样本之间更高的不一致性，使得我们的数据集更具挑战性。

标签分发

下图展示了每个 M&A 工厂的标签分布情况。我们观察到反驳和支持样本的相对比例与并购被批准或被阻止之间存在相关性。像往常一样，评论推文比支持所有操作更频繁。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

跨不同 M&A 运营的标签分布[1]

与现有语料库的比较

在这里，我们将我们的数据集与现有数据集进行了比较，如下表所示。如上所述，我们的数据集是最大的姿态检测数据集。除了规模之外，我们的注释过程涉及高技能的领域专家，而不是众包。此外，我们的数据集包含用于跨领域研究的不同领域。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Twitter 姿态检测数据集的描述性统计[1]

实验和结果

我们选择并重新实现了之前用于姿态检测的 11 个强模型。结果显示如下。SiamNet 在 F1 平均和加权平均分数方面表现最佳。像往常一样，SVM 为姿态检测提供了一个强大的基线。就不同的类别分类而言，模型在支持和评论类别之间似乎具有相对较高的错误分类数量。包含语言特征似乎减少了错误分类。CharCNN 获得了不相关样本的最佳性能，这表明我们应该为未来的架构使用字符级信息。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

WT-WT 数据集中医疗保健操作的结果[1]

对畴变的鲁棒性

在这里，我们探索我们的最佳模型如何在娱乐行业的 M&A 事件上进行跨域实验。结果显示如下。当用相同的领域数据集训练和测试模型时，结果显示了很强的性能。当模型在健康或娱乐数据集上训练并在另一个领域上测试时，我们观察到性能显著下降，表明我们的模型具有很强的领域依赖性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

领域概括实验[1]

结论和未来工作

我们表明，现有的 SOTA 模型在我们代表人类上限的数据集上表现低 10%。潜在的未来研究可能涉及探索基于转换器的模型和数据集上的不同模型架构。此外，数据集包含多个领域，允许未来使用我们的数据集进行跨目标和跨领域的研究。

来源:

[1]康弗蒂，c .，伯恩特，j .，皮莱赫瓦尔，M.T .，詹尼察鲁，c .，托克斯瓦尔，f .和科利尔，n .，2020 年。will-They-would-They:一个用于 Twitter 上姿势检测的非常大的数据集。arXiv 预印本 arXiv:2005.00388 。

原载于 2020 年 5 月 29 日。

特征提取/基于特征的情感分析

总结

其他人

DBS can——一种基于密度的无监督欺诈检测算法

原文：https://towardsdatascience.com/dbscan-a-density-based-unsupervised-algorithm-for-fraud-detection-887c0f1016e9?source=collection_archive---------13-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

帕特里克·托马索在 Unsplash 上的照片

欺诈检测方面的小数据科学

根据最近的一份报告欺诈交易造成的财务损失已达到约 170 亿美元，多达 5%的消费者遭遇过某种形式的欺诈事件。

鉴于如此巨大的财务损失，每个行业都非常重视欺诈检测。不仅仅是金融行业容易受到影响，异常现象在每一个行业都很普遍，并且可能采取多种不同的形式，例如网络入侵、业务绩效中断和 KPI 的突然变化等。

欺诈/异常/异常值检测长期以来一直是数据科学领域的热门研究课题。在不断变化的欺诈检测环境中，每天都在测试和使用新的工具和技术来筛选异常情况。在这一系列文章中，到目前为止，我已经讨论了六种不同的欺诈检测技术:

今天，我将介绍另一种称为 DBSCAN 的技术，它是基于密度的噪声应用空间聚类的缩写。

顾名思义，DBSCAN 是一种基于密度的无监督机器学习算法。它将多维数据作为输入，并根据模型参数(例如ε和最小样本)对其进行聚类。基于这些参数，算法确定数据集中的某些值是否是异常值。

下面是 Python 编程语言的简单演示。

Scikit-Learn 中的 DBSCAN 实现

Scikit-learn 有一个 DBSCAN 模块，作为其无监督机器学习算法的一部分。只需几个简单的步骤，这种算法就可以立即用于欺诈检测。

第一步:导入库

对于这个演示，我们需要三个关键库来处理数据、可视化和建模。

# data wrangling
import pandas as pd# visualization
import matplotlib.pyplot as plt# algorithm
from sklearn.cluster import DBSCAN

第二步:导入&可视化数据

我使用的是网上著名的虹膜数据集，所以你可以跟着练习，不用担心从哪里得到数据，如何清理这些数据。

# import data
df = pd.read_csv("[https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv](https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv)")print(df.head())

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

让我们选择一个数据子集来测试算法，并将它们可视化在散点图中。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

二维数据散点图

第三步:建模

该模型采用的两个最重要的参数值是(i) esp ，其指定两点之间的距离，即，数据点彼此应该有多接近以被认为是聚类的一部分；以及(ii) min_samples，，其指定一个点在一个聚类中应该具有的邻居的最小数量。

# input data
data = df[["sepal_length", "sepal_width"]]# specify & fit model
model = DBSCAN(eps = 0.4, min_samples = 10).fit(data)

第四步:可视化

# visualize outputs
colors = model.labels_
plt.scatter(data["sepal_length"], data["sepal_width"], c = colors)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

紫色中检测到异常值

步骤 5:创建异常值数据框

# outliers dataframe
outliers = data[model.labels_ == -1]print(outliers)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

异常值的数据框架

总结

本文的目的是介绍 DBS can——一种基于聚类的无监督机器学习技术，用于欺诈/异常值/异常检测。它的实现可以简单到只需要使用sklearn库的五个步骤。当然，这只是一个简单的概念演示。真实世界的应用程序需要更多的实验来找到适合特定环境和行业的最佳模型。

DBSCAN 集群—解释

原文：https://towardsdatascience.com/dbscan-clustering-explained-97556a2ad556?source=collection_archive---------1-----------------------

详细的理论解释和 scikit-learn 实现

聚类是一种对一组数据点进行分组的方法，将相似的数据点分组在一起。因此，聚类算法寻找数据点之间的相似或相异之处。聚类是一种无监督的学习方法，因此没有与数据点相关联的标签。该算法试图找到数据的底层结构。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

简·梅乌斯在 Unsplash 上的照片

有不同的方法和算法来执行聚类任务，这些任务可以分为三个子类别:

基于分区的聚类:例如 k 均值、k 中值
等级聚类:例如聚集、分裂
基于密度的聚类:例如 DBSCAN

在这篇文章中，我将尝试详细解释 DBSCAN 算法。如果你想了解其他类型的聚类算法，你也可以访问下面的帖子:

[## k-均值聚类—已解释

详细的理论解释和 scikit-learn 实现

towardsdatascience.com](/k-means-clustering-explained-4528df86a120) [## 分层聚类—已解释

理论解释和科学学习范例

towardsdatascience.com](/hierarchical-clustering-explained-e58d2f936323)

基于密度的聚类

基于分区和层次聚类技术对于正常形状的聚类非常有效。然而，当涉及到任意形状的聚类或检测异常值时，基于密度的技术更有效。

例如，使用 k-means 算法可以很容易地将下图中的数据集分成三个聚类。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

k 均值聚类

请考虑以下数字:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这些图中的数据点以任意形状分组或者包含异常值。基于密度的聚类算法在发现高密度区域和离群点方面非常有效。对于某些任务来说，检测异常值是非常重要的，例如异常检测。

DBSCAN 算法

DBSCAN 代表den sity-bassclustering ofa应用与 n oise。它能够找到任意形状的聚类和带有噪声的聚类(即异常值)。

DBSCAN 背后的主要思想是，如果一个点靠近来自该簇的许多点，则该点属于该簇。

DBSCAN 有两个关键参数:

eps :指定邻居的距离。如果两点之间的距离小于或等于 eps，则认为这两点是相邻的。
minPts: 定义一个聚类的最小个数据点。

基于这两个参数，点被分类为核心点、边界点或异常点:

**核心点:**如果一个点在其半径为 eps 的周围区域中至少有 minPts 个数的点(包括该点本身)，则该点是核心点。
**边界点:**如果一个点可以从一个核心点到达，并且其周围区域内的点数小于 minPts，那么这个点就是边界点。
**离群点:**如果一个点不是核心点，并且从任何核心点都不可达，那么这个点就是离群点。

这些观点可以用形象化来更好地解释。下图摘自维基百科:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图源

在这种情况下，minPts 是 4。红色点是核心点，因为在其半径为 eps 的周围区域内至少有4 个点。该区域在图中用圆圈表示。黄色点是边界点，因为它们可以从核心点到达，并且其邻域内的点少于 4 个。可到达意味着在核心点的周围区域。点 B 和 C 在其邻域内(即以 eps 为半径的周围区域)有两个点(包括点本身)。最后，N 是一个异常值，因为它不是一个核心点，不能从核心点到达。

我们已经学习了参数和不同类型点的定义。现在我们可以谈谈算法是如何工作的。这其实很简单:

确定 minPts 和 eps。
随机选择一个起始点，使用半径 eps 确定其邻域。如果邻域中至少有 minPts 个数的点，则将该点标记为核心点，并开始形成聚类。如果不是，则该点被标记为噪声。一旦聚类形成开始(假设聚类 A)，初始点邻域内的所有点都成为聚类 A 的一部分。如果这些新点也是核心点，则它们邻域内的点也被添加到聚类 A 中。

注意:被标记为噪声的点可以被重新访问，并且是聚类的一部分。

下一步是在前面步骤中没有访问过的点中随机选择另一个点。然后同样的程序适用。
当所有点都被访问时，该过程结束。

使用 k-means 算法中的距离测量方法来确定点之间的距离。最常用的方法是欧氏距离。

通过应用这些步骤，DBSCAN 算法能够找到高密度区域并将它们从低密度区域中分离出来。

一个集群包括相邻的核心点(即彼此可到达的)以及这些核心点的所有边界点。形成集群的必要条件是至少有一个核心点。尽管可能性很小，但我们可能有一个只有一个核心点及其边界点的集群。

Scikit-learn 实现

我们首先使用 scikit-learn 的 datasets 模块创建一个样本数据集。创建样本数据点后，我们将使用 scikit-learn 的预处理模块中的 StandardScaler 类对值进行归一化。

注意:归一化数值很重要，因为这样更容易找到邻域半径(eps)的合适距离。

让我们首先导入库:

import numpy as npfrom sklearn.datasets import make_blobs
from sklearn.preprocessing import StandardScalerimport matplotlib.pyplot as plt
%matplotlib inline

我们将创建一个包含 3 个聚类的数据集，每个聚类的标准偏差为 0.5。样本数量是 400，我们也选择三个点作为质心(聚类的中心)。您可以使用 make_blobs 函数随意调整这些参数。

#Determine centroids
centers = [[0.5, 2], [-1, -1], [1.5, -1]]#Create dataset
X, y = make_blobs(n_samples=400, centers=centers, 
                  cluster_std=0.5, random_state=0)#Normalize the values
X = StandardScaler().fit_transform(X)

我们还可以绘制数据集，以查看每个聚类的外观:

plt.figure(figsize=(10,6))
plt.scatter(X[:,0], X[:,1], c=y, cmap='Paired')

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们现在可以创建一个 DBSCAN 对象并拟合数据:

from sklearn.cluster import DBSCANdb = DBSCAN(eps=0.4, min_samples=20)db.fit(X)

我们只需要使用 eps 和 min_samples 参数定义 eps 和 minPts 值。

注意:我们不必指定 DBSCAN 的聚类数，这是 DBSCAN 优于 k-means 聚类的一大优势。

让我们来看一下 DBSCAN 确定的集群:

y_pred = db.fit_predict(X)plt.figure(figsize=(10,6))
plt.scatter(X[:,0], X[:,1],c=y_pred, cmap='Paired')
plt.title("Clusters determined by DBSCAN")

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

它能够检测异常值(用蓝色标记)。我们可以使用 labels_ attribute 来访问数据点的标签。噪声(或离群值)被赋予-1 标签。让我们检查异常值的数量:

db.labels_[db.labels_ == -1].size
18

该样本数据集中的分类实际上并不具有任意形状。但是 DBSCAN 在检测异常值方面表现得非常好，这对于基于分区(例如 k-means)或分层(例如凝聚)的聚类技术来说是不容易的。如果您还将 DBSCAN 应用于具有任意形状的集群的数据集，您也会看到 DBSCAN 的成功。

DBS can 的利弊

优点:

不需要预先指定簇的数量。
适用于任意形状的集群。
DBSCAN 对异常值是鲁棒的，并且能够检测异常值。

缺点:

在某些情况下，确定适当的邻域距离(eps)并不容易，这需要领域知识。
如果集群在集群内密度方面差异很大，那么 DBSCAN 就不太适合定义集群。聚类的特征由 eps-minPts 参数的组合来定义。因为我们将一个 eps-minPts 组合传递给该算法，所以它不能很好地推广到具有很大不同密度的聚类。

感谢阅读。如果您有任何反馈，请告诉我。

参考文献

https://en.wikipedia.org/wiki/DBSCAN