通过K-BERT检索到的论文
KnowCTI: Knowledge-based cyber threat intelligence entity and relation extraction
年份:2024
摘要
Structured cyber threat intelligence enables security researchers to know the occurrence of cyber threats in time, thereby improving the efficiency of security defense and analysis. Previous works usually use general deep learning and NLP techniques to extract intelligence. Such methods suffer from insufficient semantic understanding in the field of security. To address these issues, we propose a novel method called Knowledgebased Cyber Threat Intelligence Entity and Relation Extraction (KnowCTI), which incorporates cybersecurity knowledge into the model to enhance the understanding of the realm of cybersecurity and has a full picture of threats with the threat intelligence graph generation. Specifically, we first build a cybersecurity knowledge base and train cybersecurity-aware knowledge embeddings based on the base. Secondly, we refine the most related knowledge triples by attention mechanism and gate mechanism, and then construct a sentence tree through these triples. Next, we employ graph attention networks to incorporate knowledge information into the sentence by considering the sentence tree as a graph. Finally, we consider entity extraction as a sequence labeling problem and relation extraction as a classification problem to decode the entities and relation triples according to the threat intelligence ontology we designed. Experimental results demonstrate the superior performance with the F1 score exceeding 90.16 and 81.83 on entity and relation extraction separately.
结构化的网络威胁情报使安全研究人员能够及时了解网络威胁的发生,从而提高安全防御和分析的效率。以前的作品通常使用通用深度学习和 NLP 技术来提取情报。此类方法在安全领域存在语义理解不足的问题。为了解决这些问题,我们提出了一种称为基于知识的网络威胁情报实体和关系提取(KnowCTI)的新方法,它将网络安全知识纳入模型中,以增强对网络安全领域的理解,并通过威胁情报全面了解威胁图形生成。具体来说,我们首先建立一个网络安全知识库,并基于该库训练网络安全意识的知识嵌入。其次,我们通过注意力机制和门机制提炼出最相关的知识三元组,然后通过这些三元组构建句子树。接下来,我们通过将句子树视为图,使用图注意网络将知识信息合并到句子中。最后,我们将实体提取视为序列标记问题,将关系提取视为分类问题,以根据我们设计的威胁情报本体对实体和关系三元组进行解码。实验结果表明,实体和关系提取的F1分数分别超过90.16和81.83,性能优越。
提到的K-BERT
在相关工作中提到了K-BERT
知识融合工作
结合知识信息来增强单词表示(Peters et al., 2019;Liu et al., 2020;Yuan et al., 2021;Faldu et al., 2021)并增强下游任务的性能(Chawla et al., 2021) ;何等人,2020;聂等人,2021;一直是NLP领域的研究热点。 KnowBert(Peters et al., 2019)是 BERT 的扩展,旨在增强单词表示。它建议通过设计知识注意力和重构组件将世界知识库纳入 BERT 中。它使用 TransformerBlock 来融合知识,并使用另一个多头注意力来重新上下文化单词片段表示。 K-BERT(Liu et al., 2020)是一种改进的 BERT,能够将知识注入模型中。它将知识三元组注入句子中,并将其转换为具有可见矩阵的序列,保留结构信息和软位置机制,以便可以轻松使用 BERT 架构。 KeBioLM(Yuan et al., 2021)是一种生物医学知识感知预训练语言模型,它融合了统一医学语言系统的医学知识。它首先仅对文本进行编码,然后基于 Transformer 对文本实体融合进行编码。 KARL-TransNER(Chawla et al., 2021)结合了基于 Transformer Encoder 的 NER 的世界知识。它使用自注意力网络对知识库中的实体和关系进行编码。然后生成用于特征增强的上下文表示,以提高 NER 性能。 KAWR(He et al., 2020)提出将外部知识编码为 NER 的单词表示。它提出了一种基于循环神经网络单元的基于门控实体的循环单元,将实体信息编码到单词中并获得基于实体的单词表示。 KaNa(Nie et al., 2021)是一种知识感知的 NER 框架,旨在对世界知识中的类型异构知识进行去噪,以提高 NER 性能。
Towards Improving Interpretability of Language Model Generation through a Structured Knowledge Discovery Approach
通过结构化知识发现方法提高语言模型生成的可解释性
Abstract—Knowledge-enhanced text generation aims to enhance the quality of generated text by utilizing internal or external knowledge sources. While language models have demonstrated impressive capabilities in generating coherent and fluent text, the lack of interpretability presents a substantial obstacle. The limited interpretability of generated text significantly impacts its practical usability, particularly in knowledge-enhanced text generation tasks that necessitate reliability and explainability. Existing methods often employ domain-specific knowledge retrievers that are tailored to specific data characteristics, limiting their generalizability to diverse data types and tasks. To overcome this limitation, we directly leverage the two-tier architecture of structured knowledge, consisting of high-level entities and lowlevel knowledge triples, to design our task-agnostic structured knowledge hunter. Specifically, we employ a local-global interaction scheme for structured knowledge representation learning and a hierarchical transformer-based pointer network as the backbone for selecting relevant knowledge triples and entities. By combining the strong generative ability of language models with the high faithfulness of the knowledge hunter, our model achieves high interpretability, enabling users to comprehend the model’s output generation process. Furthermore, we empirically demonstrate the effectiveness of our model in both internal knowledge-enhanced table-to-text generation on the RotoWireFG dataset and external knowledge-enhanced dialogue response generation on the KdConv dataset. Our task-agnostic model outperforms state-of-the-art methods and corresponding language models, setting new standards on the benchmark.
Index Terms—structured knowledge, knowledge retrieval, language models, generation interpretability
摘要:知识增强文本生成旨在利用内部或外部知识源来提高生成文本的质量。虽然语言模型在生成连贯且流畅的文本方面表现出了令人印象深刻的能力,但缺乏可解释性是一个巨大的障碍。生成文本的有限可解释性极大地影响了其实际可用性,特别是在需要可靠性和可解释性的知识增强文本生成任务中。现有方法通常采用针对特定数据特征定制的特定领域知识检索器,限制了它们对不同数据类型和任务的通用性。为了克服这一限制,我们直接利用由高层实体和低层知识三元组组成的结构化知识的两层架构来设计与任务无关的结构化知识搜索器。具体来说,我们采用局部-全局交互方案进行结构化知识表示学习,并采用基于分层变压器的指针网络作为选择相关知识三元组和实体的骨干。通过将语言模型强大的生成能力与知识猎手的高度忠实性相结合,我们的模型实现了高可解释性,使用户能够理解模型的输出生成过程。此外,我们凭经验证明了我们的模型在 RotoWireFG 数据集上的内部知识增强的表到文本生成和 KdConv 数据集上的外部知识增强的对话响应生成方面的有效性。我们的任务无关模型优于最先进的方法和相应的语言模型,为基准设定了新标准。
也是relatedwork
a) 语言模型:通用架构:之前针对 NLP 任务的通用架构的研究已经取得了显着的成功,即使不使用检索。具体来说,经过微调 [19]、[20] 后,单个预训练语言模型已被证明可以在 GLUE 基准测试中的各种分类任务上产生稳健的性能。 GPT-2 [21] 扩展了这种方法,表明单一的、从左到右的预训练语言模型可以在判别和生成任务中表现出色。此外,BART [22]和T5 [23]提出了一种预训练的编码器-解码器该模型利用双向注意力在这些任务上实现更强的性能。在本文中,我们的目标是通过合并检索模块来扩大可能的任务范围,以在单个统一架构中增强预训练的生成语言模型的性能。
b)知识增强文本生成中的语言模型:在信息检索中获取知识方面已经进行了广泛的研究,特别是通过利用预先训练的神经语言模型(PLM)[24],[25],这极大地启发了我们的研究。一行是直接插入预先计算的知识表示作为 PLM 的辅助输入[26]、[27]。**然而,将知识表示显式注入 PLM 的方法有人认为,PLM 单词的向量空间与知识表示不一致,因为它们是从单独的任务中学习的 [28]。**另一条路线是通过执行概念顺序恢复 [29] 和实体类别预测 [30] 等知识相关任务,将知识信息隐式合并到 PLM 中。其他人使用搜索[31]、强化学习[32]或潜在变量方法[33]优化检索模块以帮助完成特定的下游任务。此外,RETRO [34] 通过将检索内存扩展到数万亿个标记并更改模型架构以将检索到的文档作为输入进行扩展。虽然以前的成功依赖于各种基于检索的架构和优化技术来在各个任务上实现令人印象深刻的性能,但我们的研究表明,单个基于检索的架构可以在各种任务中实现卓越的性能。
c)表到文本段落生成:与早期的表到文本数据集(例如用于句子级生成的 WikiBio [35])不同,RotoWire 语料库 [36] 由于其段落级目标文本和更多冗余内容而更具挑战性在表中。 RotoWire 语料库 [36] 要求模型从得分表和得分表中生成 NBA 比赛摘要。与早期的表到文本数据集不同,RotoWire 由于其目标文本较长且表中冗余内容较多,因此更具挑战性。一些尝试发现,内容选择和规划是获得良好生成质量不可或缺的步骤[37]、[38]。为此,他们尝试引入辅助任务来指导更好的内容选择和规划[13]、[39]、[40]。然而,由于特定任务的目标,这些方法并不能通用。相比之下,Tableformer [41] 专注于通过对表结构感知特征进行建模来直接学习更好的表表示。明确地说,分层编码器[15]通过组合行级和列级特征来表示表格以产生目标文本。我们的方法与以前的模型之间的本质区别是:1)我们的模型直接受益于知识层次结构,因此与任务无关; 2)我们使用语言模型作为文本生成器来生成更流畅、连贯的文本。
d)基于知识的对话:由于标准对话响应生成模型往往会产生枯燥且信息量较少的响应,因此基于知识的多轮对话生成[42],[43]最近引起了更多关注。基于知识的对话经常使用知识图(KG)来表示链接实体中的语义和关系[44],[45]。 KG 在事实验证中也至关重要,以确保生成忠实且准确的信息 [46]、[47]。 KG 增强对话生成鼓励模型借助检索到的知识生成多样化且有意义的内容。为了解决这一任务,其中一项工作是使用图神经网络 [48]、[49] 来学习 KG 感知的输入文本表示。另一条线通过路径查找策略对知识图谱进行推理,为生成过程提供辅助指导[50]、[51]。其他人探索直接在知识图三元组上微调语言模型,以将知识转移到语言模型中[52]、[53]。相反,我们使用显式知识搜索器并对所选知识的更细粒度的特征进行建模。
TASK DEFINITION
我们为不同源的知识增强文本生成任务定义了一个通用的管道范例,可以为内部和外部知识增强文本生成任务进行定制。我们专注于开发一种两阶段方法,使用结构化知识输入 K 生成连贯且忠实的文本。输入由 n 个知识三元组和 p 个实体组成。两阶段方法是首先学习一个提取知识计划,表示为 Pm,其中包括来自 K 的 m 个知识三元组,然后由基于语言模型的文本生成器使用来生成高质量文本。为了实现这一目标,我们提出了一个生成过程,该过程涉及基于概率分布 p(kt|Pt−1, K; θ) 在每个第 t 步选择知识三元组 kt,其中 Pt−1 表示先前选择的计划, θ 表示模型参数。然后将所选三元组添加到 Pt−1 以形成 Pt。我们将最佳计划 ^ P 定义为在给定 K 和 Pm 的情况下最大化生成连贯且忠实文本的概率的计划。