笔记-1

论文题目: Detection of Malicious Code Variants Based on Deep Learning

论文链接:密码qxmg

近年来,一些学者使用数据挖掘方法来分析恶意代码的特征。与传统的启发式检测方法相比,该方法具有效率高、误报率低的特点,已成为恶意软件检测的主流。图1说明了使用数据挖掘检测恶意代码的过程。
但,基于特征分析的方法经常被破坏。将恶意软件二进制文件转换为自压缩或唯一结构的二进制文件的模糊技术会阻碍静态特征分析的有效性。动态特征分析往往受到各种对策的挑战,而这些对策往往产生不可靠的结果。此外,由于执行环境不符合规则,动态分析可能会忽略某些类型的恶意代码。

提出问题:

1.文章写道以往基于特征分析的方法经常被破坏并提出恶意软件可视化,一种基于图像处理技术的新方法。这项工作将压缩二进制样本的结构转换为二维(2-D)灰度图像。然后利用图像特征进行分类。并对恶意软件的两种不同特征设计策略进行了比较研究。(将恶意软件二进制转换为动画的技术,将恶意软件检测转化为图像分类问题。)

2.并提出“在每年生成的大量恶意软件中,一个实质性的部分包括存在恶意代码系列或组的差异。通常,恶意代码变化的数量在不同的代码系列中有很大的不同。”文中针对不同恶意软件家族之间的数据不平衡问题,设计了一种基于BAT算法的有效数据均衡方法。

提出模型: 基于上述两点,作者提出了一种改进恶意软件变异检测的新方法。首先,该方法将恶意代码转化为灰度图像。接下来,由CNN对这些图像进行识别和分类,CNN可以自动提取恶意软件图像的特征。此外,该模型为不同恶意软件家族之间的数据不平衡问题提供了一种有效的解决方案。

基于CNN的恶意代码变体检测方法

A.二进制恶意软件到灰色图像

在本文中,我们使用了可执行恶意软件二进制文件的可视化。一个恶意软件二进制位字符串可以拆分为多个子字符串,这些子字符串的长度为8位。这些子串中的每一个子串都可以看作一个像素。根据指定的宽度,该一维数组可以被视为具有一定宽度的二维矩阵。最后,恶意代码矩阵被解释为灰度图像。图像是固定的,图像的高度根据文件的大小而变化。

B.基于CNN的恶意软件图像分类

在文中,开发了一个CNN来对恶意软件进行分类。用于灰度图像识别的CNN结构由几个部分组成,首先是输入层,将训练图像引入神经网络。接下来是卷积和次采样层。前一层可以增强信号特性,降低噪声。后者可以减少数据处理量,同时保留有用的信息。然后,有几个完全连接的层将二维特征转换为符合分类器标准的一维特征。最后,根据恶意软件图像的特点,对其进行分类识别。

恶意软件图像数据均衡

A.图像数据增强(IDA)技术

为了避免过度拟合,我们通常需要输入足够的数据来训练模型。如果数据样本相对较小,我们可以使用数据扩充来增加样本,从而抑制不平衡数据的影响。适当的数据增强方法可以有效地避免过拟合问题。使用原始图像数据的转换(改变图像像素的位置并确保特征保持不变) 生成新数据。如旋转/反射,翻转,缩放,缩小,比例,对比度,噪声和颜色转换都是图像的增强手法。然而,一些图像通过不适当的过渡(即过度轮换)丢失一些不信息。

B.基于BAT算法的数据均衡

在本文中,恶意软件图像数据非常不均匀,为此问题提出了用蝙蝠算法(BAT算法)解决数据不均衡问题。在分类中,重采样是处理不平衡训练集的一种简单方法。该方法通过对训练集的处理,将不平衡的数据集转化为平衡的数据集。它由两个实现组成:过采样和欠采样。过采样用于制作子集的多个副本。欠采样用于从样本集中删除一些样本(即仅选择一些样本)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值