【AI4Code】《Contrastive Code Representation Learning》 (EMNLP 2021)

最新推荐文章于 2023-04-15 00:33:14 发布

chad_lee

最新推荐文章于 2023-04-15 00:33:14 发布

阅读量350

点赞数

分类专栏：论文解读代码智能机器学习文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yanguang1470/article/details/125794339

版权

《Contrastive Code Representation Learning》 (EMNLP 2021)

现有代码表征学习方法最大的缺点是对源代码的编辑非常敏感，即编辑的代码不改变语义。因此提出一种对比学习预训练方法ContraCode，学习的是代码的功能性，而不是形式。

文章举个例子，现有方法对于代码编辑是不鲁棒的，对代码进行超过3个单词的对抗攻击改动，code clone检测的准确度就已经低于随机猜了。

在这里插入图片描述

很自然的对比学习方法就是最大化功能相同的代码表征相似度，最小化功能不同的代码表征相似度：

在这里插入图片描述

扩增方法

文章的核心思想就是对code进行不改变功能的扩增，然后对比学习。

文章不是人工标注的做这件事，而是巧妙的利用编译器来source2source的实现这件事。只要编译器认为这两个代码相同，那么就是不改变功能的扩增

在这里插入图片描述

基于编译器的扩增方法主要可以分为三大类：

code compression：提前计算表达式、改变代码格式、删除空格、删除Dead-Code等
Identifier modification：变量重命名等
Regularization：插入Dead-Code等，其中0.9的Line subsampling是一种改变功能的扩增，用于提高泛化性。

为了提高多样性，对于每段代码，会随机选取一个扩增方法子集进行扩增。

训练方法

在这里插入图片描述

训练用的是伪孪生网络，基本和He Kaiming的MOCO一样，两个encoder+MLP，输出带入InfoNCE的对比学习loss，也维护了负样本队列。

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【AI4Code】《Contrastive Code Representation Learning》 (EMNLP 2021)

现有代码表征学习方法最大的缺点是对源代码的编辑非常敏感，即编辑的代码不改变语义。训练用的是伪孪生网络，基本和HeKaiming的MOCO一样，两个encoder+MLP，输出带入InfoNCE的对比学习loss，也维护了负样本队列。文章举个例子，现有方法对于代码编辑是不鲁棒的，对代码进行超过3个单词的对抗攻击改动，codeclone检测的准确度就已经低于随机猜了。本文提出的方法是学习到代码功能的相似性，而不是形式上的相似性，因此对于。文章的核心思想就是对code进行不改变功能的扩增，然后对比学习。...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。