【AI4Code】《Contrastive Code Representation Learning》 (EMNLP 2021)

《Contrastive Code Representation Learning》 (EMNLP 2021)

现有代码表征学习方法最大的缺点是对源代码的编辑非常敏感,即编辑的代码不改变语义。因此提出一种对比学习预训练方法ContraCode,学习的是代码的功能性,而不是形式。

文章举个例子,现有方法对于代码编辑是不鲁棒的,对代码进行超过3个单词的对抗攻击改动,code clone检测的准确度就已经低于随机猜了。

在这里插入图片描述

很自然的对比学习方法就是最大化功能相同的代码表征相似度,最小化功能不同的代码表征相似度:

在这里插入图片描述

扩增方法

文章的核心思想就是对code进行不改变功能的扩增,然后对比学习。

文章不是人工标注的做这件事,而是巧妙的利用编译器来source2source的实现这件事。只要编译器认为这两个代码相同,那么就是不改变功能的扩增

在这里插入图片描述

基于编译器的扩增方法主要可以分为三大类:

  • code compression:提前计算表达式、改变代码格式、删除空格、删除Dead-Code等
  • Identifier modification:变量重命名等
  • Regularization:插入Dead-Code等,其中0.9的Line subsampling是一种改变功能的扩增,用于提高泛化性。

为了提高多样性,对于每段代码,会随机选取一个扩增方法子集进行扩增。

训练方法

在这里插入图片描述

训练用的是 伪孪生网络,基本和He Kaiming的MOCO一样,两个encoder+MLP,输出带入InfoNCE的对比学习loss,也维护了负样本队列。
− log ⁡ exp ⁡ ( q

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值