威胁情报挖掘
文章平均质量分 95
是Yu欸
这里是我读博期间的笔记本,记录学习和成长,争取顺利毕业ing
展开
-
【笔记】探索生成范式:大型语言模型在信息提取中的作用
信息抽取(Information Extraction, IE)旨在从自然语言文本中提取结构化知识,如实体、关系、事件等。随着生成式大型语言模型(Large Language Models, LLM)在文本理解和生成领域展现出卓越能力,其在跨领域和跨任务泛化中的潜力受到广泛关注。近期,众多研究致力于利用LLM的能力,为IE任务提出基于生成范式的解决方案。因此,研究计划对LLM在IE任务中的应用进行全面和系统性的回顾与探索,综述了该领域的最新进展。原创 2024-04-13 18:35:29 · 5042 阅读 · 26 评论 -
【威胁情报综述阅读3】Cyber Threat Intelligence Mining for Proactive Cybersecurity Defense
在 2020 年代 COVID 驱动的社会、经济和技术变革造成大规模破坏之后,网络安全对手已经改进了他们的交易技巧,使其变得更加复杂。一系列备受瞩目的攻击接踵而至,例如SolarWinds供应链攻击[1],它震撼了许多组织,标志着网络安全的转折点。作为收集、处理和分析有关威胁行为者动机、目标和攻击行为的信息的过程,网络威胁情报 (CTI) 帮助组织、政府和个人互联网用户做出更快、更明智、数据支持的安全决策并改变他们的行为,以对抗威胁行为者从被动到主动。CTI 有几种定义。原创 2024-04-02 15:43:46 · 6362 阅读 · 9 评论 -
【论文代码】②.1 STIOCS: Active learning-based semi-supervised training framework for IOC extraction
论文 [STIOCS: Active learning-based semi-supervised training framework for IOC extraction](https://www.sciencedirect.com/science/article/pii/S0045790623004056)代码解读:[https://github.com/MuscleFish/SeqMask](https://github.com/MuscleFish/SeqMask).[【论文代码】① Dat原创 2024-03-21 22:55:05 · 2228 阅读 · 11 评论 -
【ACL 2023-NER注入到PLM】基于上下文学习的命名实体识别 Learning In-context Learning for Named Entity Recognition
在这个实例中,我们看到上面两个文本被作为了元函数进行训练,分别得出的函数是文本的分类为{疾病,病毒}和{电影}。下文中我们认为目标是在文本中找到有{疾病,病毒}属性的文本,最终经过PLM得出SARS-CoV-2是一种病毒. COVID-19 是一种疾病。首先我们看到,蓝色的方框中为微调过的函数,这时我们认为微调过的函数取得了最好的结果,也就是预测准确度非常高。原创 2024-03-20 12:00:45 · 7069 阅读 · 31 评论 -
【威胁情报综述阅读2】综述:高级持续性威胁智能分析技术 Advanced Persistent Threat intelligent profiling technique: A survey
随着互联网和信息技术的蓬勃发展,网络攻击变得越来越频繁和复杂,尤其是高级持续威胁 (APT) 攻击。与传统攻击不同,APT 攻击更具针对性、隐蔽性和对抗性,因此手动分析威胁行为以进行 APT 检测、归因和响应具有挑战性。因此,研究界一直专注于智能防御方法。智能威胁分析致力于通过知识图谱和深度学习方法分析APT攻击并提高防御能力。基于这一见解,本文首次系统回顾了针对 APT 攻击的智能威胁分析技术,涵盖数据、方法和应用三个方面。内容包括数据处理技术、威胁建模、表示、推理方法等。原创 2024-03-12 13:23:41 · 6596 阅读 · 22 评论 -
【威胁情报挖掘-论文阅读】学习图表绘制 基于多实例学习的网络行为提取 SeqMask: Behavior Extraction Over Cyber Threat Intelligence
虽然上述方法可以定位或识别CTI中的一些TTPs信息,但需要解决以下问题。基于机器学习的方法由于其黑盒性质而难以有效定位 TTP,导致无法形成 TTP 实体。信息提取方法的局限性可分为三点。(1)数据不足:信息提取的核心是实现对SVO/VO行为短语的提取,这将过滤非SVO/VO信息,使部分证据丢失。识别的结果只能判断行为的归属,但很难定位和推理预测。(2)验证不完全:信息提取擅长区分行为短语之间的相似性,但不能区分短语中单个单词的贡献。识别方法只能确定分类的准确性,因此难以理解输入文本导致结果的原因或方式。原创 2024-03-12 13:10:14 · 6286 阅读 · 26 评论