AttacKG+: Boosting Attack Knowledge Graph Construction with Large Language Models

题目

AttacKG+:利用大型语言模型促进攻击知识图谱构建
在这里插入图片描述

论文地址:https://arxiv.org/pdf/2405.04753
项目地址:https://docs2kg.ai4wa.com/Video

摘要

    攻击知识图谱构建旨在将文本网络威胁情报 (CTI) 报告转换为结构化表示,描绘网络攻击的演化轨迹。尽管先前的研究提出了构建攻击知识图谱的各种方法,但它们通常存在对各种知识类型的泛化能力有限以及模型设计和调整需要专业知识的问题。为了解决这些限制,我们寻求利用大型语言模型 (LLM),该模型在语言理解和零样本任务完成方面都具有出色的能力,在广泛的任务中取得了巨大的成功。因此,我们提出了一个基于 LLM 的全自动框架来构建攻击知识图谱,名为:AttacKG +。我们的框架由四个连续的模块组成:重写器、解析器、标识符和总结器,每个模块都由 LLM 支持的指令提示和上下文学习实现。此外,我们升级了现有的攻击知识模式并提出了一个全面的版本。我们将网络攻击表示为一个时间展开的事件,其中的每个时间步骤都封装了三层表示,包括行为图、MITRE TTP 标签和状态摘要。大量评估表明:1)我们的公式无缝地满足了威胁事件分析中的信息需求;2)我们的构造框架能够忠实准确地提取 AttacKG+ 定义的信息;3)我们的攻击图直接有利于下游安全实践,如攻击重建。所有代码和数据集将在接受后发布。

关键词:网络威胁情报分析·攻击知识图谱构建·大型语言模型

引言

    为了更好地应对日益加剧的高级网络攻击威胁,安全分析师正在交换网络威胁情报 (CTI),以增强他们的意识并有效应对威胁事件。由于 CTI 报告是用为了适应自然语言的自由形式格式,研究者提出了攻击知识图谱构建任务,旨在对网络攻击过程进行结构化分析[1]。由于在学术界和工业界都具有重要价值,攻击知识图谱构建近年来引起了越来越多的关注[2–4]。

    研究人员提出了多种攻击知识图谱构建方法。EXTRACTOR[2]和THREATKG[3]通过构建领域正则表达式或本体模型来提取威胁实体和关系,从而将自然语言编写的非结构化文本转换为结构化的知识图谱。此外,为了规范攻击过程描述的技术内涵,TTPDrill[4]和AttacKG[1]提出利用MITRE TTP(战术、技术和程序)本体1对结构化KG进行标记。然而,目前的攻击知识图谱构建方法有两个主要局限性:局限性1:目前的构建模型对语义的理解能力有限,无法很好地泛化到多样化和新兴的攻击场景和知识类型。现有威胁信息提取方法的能力受到训练数据量有限和模型规模较小的严重限制,难以推广到各种开放场景,无法覆盖广泛的安全知识类型[5–8],在面对无法理解和识别的未知安全知识时,威胁信息损失较大。

    限制2:现有方法很大程度上依赖于自然语言处理或图匹配模型的专业设计和精细化管理,对大多数不熟悉这些领域的安全从业者构成挑战。为了对目标对象获得更好的信息提取结果,现有方法需要大量人力对模型进行微调。这个过程需要有丰富经验的技术人员对模型参数进行调试。这个问题阻碍了那些人工智能领域背景知识较弱的网络安全技术人员深入参与网络威胁情报提取方法的设计。

    大型语言模型(LLM)[10,11]的突破为这些问题带来了启示。首先,LLM 在预训练过程中使用了海量开放知识数据,因此具有强大的上下文理解和知识推理能力,可以理解各个领域和各种知识。其次,LLM 可以通过指令跟随和上下文学习执行各种各样的零样本和少样本任务,而不需要特殊的模型结构设计或在特定数据集上进行训练。因此,使用 LLM 提取攻击知识图谱可以很好地解决上述两个限制。目前,LLM 已在网络安全领域进行了初步应用探索 [12–15]。但在网络知识图谱构建方面,它仍在探索中。

    利用 LLM 进行攻击知识图谱构建,我们提出了一个全自动框架,该框架包含四个模块:重写器、解析器、标识符和总结,每个步骤都是通过专门的提示工程和基于 LLM 的上下文学习实现的。重写器过滤掉冗余信息,将报告内容组织成几个部分,每个部分对应于 MITRE TTP 中定义的一个战术阶段,并最大限度地保留关键知识。

    随后,给定重写的部分,解析器提取行为图,包括原子事件三元组、威胁动作之间的时间关系以及实体-实体关系。接下来,给定行为图和重写的部分,标识符将行为图和重写的部分与适当的 MITRE 技术标签进行匹配。最后,总结器在每个战术阶段结束时总结情况和状态。此外,鉴于 LLM 在理解和提取各种网络知识方面的卓越能力,我们通过综合现有工作提出了一个更全面的模式,封装了多层次的威胁知识:威胁行为、TTP 标签和状态摘要。因此,我们的模式是通用的,可以涵盖更丰富的威胁信息。我们将我们的方法命名为 AttacKG+,一方面是为了突出我们在提升攻击知识图谱构建性能方面的贡献,另一方面也是为了赞扬 AttacKG [1] 的开创性工作,并期待对这一宝贵问题做出进一步的贡献。

    我们实现了 AttacKG+,并针对从 MITRE 爬取的 14 种策略中的 234 种技术和从多个情报来源收集的 500 份 CTI 报告对其进行了评估 [16, 17]。AttacKG+ 成功识别了 7,305 个技术实例、20,350 个实体实例和 10,175 个关系实例。我们的实验结果表明,AttacKG+ 在开放场景下明显优于现有的 CTI 解析解决方案,例如 EXTRACTOR [2] 和 AttacKG [1]:在威胁实体/关系提取任务和技术识别任务中 F1 分数显着提高。战术重写报告的定性评估非常有效,绘制的 AttacKG+ 很好地展示了攻击过程。此外,我们的方法易于使用,不需要任何自然语言处理和图学习的先验知识,并且对广泛的安全从业者友好。主要贡献如下: – 据我们所知,我们是第一批探索 LLM 以促进攻击知识图谱构建任务的人,形成了一种新颖、通用且用户友好的范例。

  • 我们提出了一个完全自动化的基于 LLM 的框架 AttacKG+,同时引入了升级的网络威胁多层知识模式。
  • 广泛的评估证明了 AttacKG+ 的优势和构建框架的有效性。作为副产品,我们从 500 份 CTI 报告中构建了两个数据集,即 Re-CTI 和 CTI-TE。

任务定义

    当前的研究仍然不能完全反映威胁事件的态势:首先,当前的研究缺乏对 CTI 报告的战术切片,因此无法描绘威胁事件的阶段。这导致无法监控攻击各个阶段的态势信息。其次,当前的威胁知识提取工作中各个要素都是离散存在的,表现在威胁实体的提取、技术标签等信息耦合度不高,整体威胁事件提取方案不足[2, 4, 9]。迎合LLM的强大能力,我们系统地升级了现有的网络安全KG模式,提出了更全面的CTI报告攻击知识图谱方案。如图

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值