摘 要
开源数据是网络威胁检测、网络威胁情报、网信治理和网络安全态势感知的重要数据来源。开源数据具有实时性、海量性、虚假性等特点,其数据质量主要是指数据的固有属性能否满足用户的需求,数据质量低的开源数据会导致分析的准确性降低,影响后续决策。因此,开源数据质量评估是影响开源数据分析与利用的重要难题,基于开源数据特征提出了数据质量评估体系,构建全面实用的开源数据质量维度、评估理论、跟踪方法,增加了开源数据的实效性、完整性、关联性,释放数据价值,提升网络安全事件分析、溯源处置的及时性、准确性。
内容目录:
1 国内外现状
2 开源数据质量评估体系
2.1 开源数据质量评估体系
2.2 开源数据多维质量检测指标构建
3 开源数据质量评估流程
4 结 语
开源数据是指在开放环境下,通过合法方法从公开资料中获取的数据,数据可被任何人自由访问、重复使用与共享,没有版权、专利或其他限制。
随着互联网、大数据技术的快速发展,网络环境中的开源数据量井喷式增长,占据数据体量的 95%。开源数据具备类型多样、及时性、开放性、海量多维等特点,为开源数据的深度分析与挖掘提供了坚实的数据基础。但是开源数据的多源异构、无组织管理、碎片化等特点,让人们无法对数据进行多维度评估,使得数据本身的不确定