论文分享(二)——NIPS 2018 利用GAN进行源代码修复

论文链接:https://arxiv.org/abs/1805.07475v1

一.研究背景

软件程序中的安全漏洞给计算机系统带来了严重的风险。 恶意用户利用这些漏洞可以破坏程序,迫使这些程序崩坏,或是暴露敏感用户信息等。每年都有数以千计的漏洞被公开报告给常见漏洞和披露数据(CVE),还有更多漏洞在内部通过专有代码发现并修补。因为这些漏洞通常是程序员工作的一些疏忽所导致的,所以它们的产生是不可避免的。另一方面,由于开源软件和代码重用的普遍存在,这些漏洞带来的破坏传播速度很快。

概括:
1.安全漏洞——>恶意用户利用——>程序崩坏、暴露敏感用户信息
2.人为的疏忽所致,不可避免
3.开源软件和代码重用的情况,传播速度快

以上的这一现象,使得人们对如何自动修复软件漏洞(即,出错的源代码)这一问题进行研究。NMT(神经机器翻译)系统在文本的翻译和校正上的表现一直相对突出,但训练NMT系统的最常用方法是使用标记的示例对(pair examples)来比较网络输出与期望版本的相似性,这就需要在输入和期望输出数据之间进行一对一映射。在大多数情况下这需要花费大量的时间和精力去人工标记

这说明

最好是在没有匹配的示例对的情况下,也能够完成我们的目标任务。

问题是

虽然在很多的seq2seq应用中,获取不成对的数据相对比较简单,通常只需要将数据标记为源或是目标数据即可。然而,仅能做到判断的效果,不提供对标记集之间的一对一映射(即,没办法进行校正工作)。

为此,引入今天的主题:使用GAN来进行对抗性学习解决这一问题。

这种方法允许在没有配对示例的情况下进行训练,使用传统的NMT模型作为生成器,并用判别器的损失值来替代原本的基于梯度的负似然损失, 判别器通过训练来区分NMT生成的输出和真实样本的期望输出,因此其损失即表示生成的和实际分布之间的差异。

二.要解决的问题

然而,想要真正的实现这一方法,我们需要解决以下三个问题:

  1. 文本的离散性。离散的输出结果不可微分,如何对NMT系统输出结果进行处理?
  2. 因为生成器是被训练来匹配分布而不是对应的样本,因此对抗性训练不能够保证生成的代码(校正后的)将对应于输入的坏代码(有漏洞的)。
  3. 所考虑的对应域并不是双射的,即不是一一对应的,而是一段有漏洞的代码可以有多个修复,或者一个好的代码可以以多种方式被破坏。

三.具体如何解决

3.1 WG

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值