基于NLP的软件分析和程序漏洞挖掘(一)

1.前言

由于深度学习模型对数据较高的依赖性,需要大量标注好的数据,数据量少必定会造成模型过拟合和泛化能力差。因此,NLP领域开始关注海量未标注的数据。预训练模型的最初探索主要致力于浅层语义表示和上下文语义表示。最早关注的浅层语义表示是Word2Vec等,为每个单词学习一个固定的单词编码,而后在多个任务上都用相同的编码,这样表示方法必定带来无法表示一词多义的问题,所以NLP开始探索具有上下文语义的单词词嵌入。

而现今病毒,网络攻击不再是攻击单一的攻击面,可能对整个系统的所有部件进行修改最后形成攻击者想执行的行为,例如方程式APT组织的DanderApritZ攻击平台提供的攻击武器是对目标系统中从上到下执行文件的替换,由此构建对攻击者有利的漏洞环境,并且大部分是微调。所以对上下文关联特征和单个部件微调特征的识别可以有效防御现今的高隐蔽,复杂攻击甚至是未知攻击。这就找到NLP与漏洞挖掘之间的契合点。

2.寻找契合点

由之前19年ndss提出对指令做词嵌入的预训练模型进行优化和改进,因为自己对该方法做了验证,先不多说,上图!
对于不同的漏洞的识别曲线
可以看到,对于能够识别的指令占全文件的40%,漏洞识别准确率就可以达到如图所示的95%。所以想要识别更多的漏洞特征或寻找更有意思的

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值