摘要
将可执行文件视为字节序列或者汇编语言指令没有考虑程序的结构层次(空间关联性),因为函数调用会跳到指令中不同的位置,那么如果按照二进制文件处理,指令的执行仍然是不连续的,也就是说,并不是按照二进制文件流顺序进行的。那么提出一个HCNN网络,有两个层次的卷积块应用在助记符水平和功能水平,使我们能够从这两个层次提取n-gram样特征时,构建恶意软件表示。
说明
我们的主要贡献是一个新的神经架构,称为层次卷积网络,旨在捕捉有关恶意软件结构在记忆水平和功能水平的见解。考虑到可移植可执行文件(PE)具有层次结构,即计算机程序由函数组成,函数由指令组成,我们引入了一种层次网络结构,通过首先构建它们的函数表示来构造程序表示,然后通过提取和组合助记符级特征和函数级表示来构建后续表示,从而保留可执行文件的层次信息。
基于工作
n-grams方法,步骤:首先,提取n-gram。其次,对特征进行约简,只选择特征的一个子集。第三,提出了一种基于缩减特征子集的样本分类算法(比如熵分析)。
深度学习方法:灰度图等。
具体实现
第III-A节介绍了Microsoft恶意软件分类挑战基准[3]。第III-B节描述了如何将恶意软件分类视为文档分类任务。最后,第III-C节介绍了一个分层卷积网络,用于将恶意软件分类为系列
A数据集:
kaggle数据集:
包含10868个用于训练的恶意样本和10873个&