安全知识图谱是网络安全领域专用知识图谱,也是知识图谱应用于安全业务的重要工业尝试。当前,安全领域中存在大量的业务数据,建模需求以及应用需求,了解安全领域知识图谱的建设方法以及典型应用场景,具有重要意义。
本文主要对《安全知识图谱技术白皮书》一文进行解读和总结介绍,对于安全领域的朋友可以重点关注。
一、安全知识图谱概述
安全知识图谱作为一种实体和概念等安全知识的高效组织形式,能够发挥其知识整合的优势,将零散分布的多源异构的安全数据组织起来,为网络安全空间的威胁建模、风险分析、攻击推理等提供数据分析和知识推理方面的支持。
例如,上图展示了一个典型的安全知识图谱,由网络和安全知识库、情报库、资产库、行为日志中关键实体(概念)及关系构建而成。
二、安全知识图谱的数据类型与开放本体
一个典型的安全知识图谱构建流程主要包括以下几个步骤,包括数据来源、本体设计、图谱构建以及图谱应用等环节,下图展示了技术流程图。
1、主要数据来源
安全知识图谱的数据为多源异构数据,不仅来自多个不同来源,而且有混合型数据(包括结构化和非结构化)和离散性数据(分布在不同的系统或平台的数据)。
数据来源包括企业内部和互联网数据,其中:
企业内部信息系统本身每天产生海量的检测数据,而攻击者的操作行为也隐藏在系统自身记录的审计日志和网络流量数据中。
互联网数据包括开源情报、安全论坛发布的信息和网络公布的安全报告等。
2、主要数据形式
从数据结构上看,安全数据包括结构化数据、半结构化数据以及结构化数据。
首先,常见的结构化数据包括漏洞(CVE)、攻击模式(CAPEC)、知识数据库等知识以及从传感器收集的网络资产和终端日志等数据。通常存储在关系型数据库中,授权后可以直接获取。
其次,半结构化数据包含日志文件、 XML 文档、 JSON 文档、 Email ,权威机构发布的威胁情报 (STIX)、开源威胁指标 OpenIOC。
最后,非结构化数据包括文本数据,如漏洞描述、恶意软件分析报告、攻击组织分析报告, 安全热点事件等信息,来自于网络安全机构研究报告、社交媒体、安全社区博客及供应商公告、APT 报告、威胁分析报告、博客、推特和文档数据。主要依赖于手工收集和自动化爬虫,在获取开源数据时尽量选择可靠的数据源,例如权威安全研究机构来保证信息可信度,然后利用爬虫技术采集威胁情 报网站上特定格式的 IOC 描述,安全研究机构发布的威胁组织分析报告等。
详细请看如下: