基于NLP的软件分析和程序漏洞挖掘（一）

飞天王八易

已于 2022-04-11 15:39:27 修改

阅读量955

点赞数

分类专栏： NLP的自动化二进制分析文章标签： c++ 自然语言处理人工智能

于 2021-11-24 11:39:47 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43926330/article/details/121502049

版权

1.前言

由于深度学习模型对数据较高的依赖性，需要大量标注好的数据，数据量少必定会造成模型过拟合和泛化能力差。因此，NLP领域开始关注海量未标注的数据。预训练模型的最初探索主要致力于浅层语义表示和上下文语义表示。最早关注的浅层语义表示是Word2Vec等，为每个单词学习一个固定的单词编码，而后在多个任务上都用相同的编码，这样表示方法必定带来无法表示一词多义的问题，所以NLP开始探索具有上下文语义的单词词嵌入。

而现今病毒，网络攻击不再是攻击单一的攻击面，可能对整个系统的所有部件进行修改最后形成攻击者想执行的行为，例如方程式APT组织的DanderApritZ攻击平台提供的攻击武器是对目标系统中从上到下执行文件的替换，由此构建对攻击者有利的漏洞环境，并且大部分是微调。所以对上下文关联特征和单个部件微调特征的识别可以有效防御现今的高隐蔽，复杂攻击甚至是未知攻击。这就找到NLP与漏洞挖掘之间的契合点。

2.寻找契合点

由之前19年ndss提出对指令做词嵌入的预训练模型进行优化和改进，因为自己对该方法做了验证，先不多说，上图！
对于不同的漏洞的识别曲线
可以看到，对于能够识别的指令占全文件的40%，漏洞识别准确率就可以达到如图所示的95%。所以想要识别更多的漏洞特征或寻找更有意思的

最低0.47元/天解锁文章

飞天王八易

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
基于NLP的软件分析和程序漏洞挖掘（一）

1.前言由于深度学习模型对数据较高的依赖性，需要大量标注好的数据，数据量少必定会造成模型过拟合和泛化能力差。因此，NLP领域开始关注海量未标注的数据。预训练模型的最初探索主要致力于浅层语义表示和上下文语义表示。最早关注的浅层语义表示是Word2Vec等，为每个单词学习一个固定的单词编码，而后在多个任务上都用相同的编码，这样表示方法必定带来无法表示一词多义的问题，所以NLP开始探索具有上下文语义的单词词嵌入。而现今病毒，网络攻击不再是攻击单一的攻击面，可能对整个系统的所有部件进行修改最后形成攻击者想执行的
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。