【AI4Code】《CoSQA: 20,000+ Web Queries for Code Search and Question Answering》 ACL 2021

CoSQA类似CLIP做出了一个NL-PL的query-key二分类数据集,然后类似CLIP一样双模态对齐训练,在此基础上添加了对比学习,并设计了两类数据扩增方法。双塔的encoder都是CodeBERT。
摘要由CSDN通过智能技术生成

《CoSQA: 20,000+ Web Queries for Code Search and Question Answering》 ACL 2021

类似CLIP 做出了一个 NL-PL的query-key二分类数据集,然后类似CLIP一样双模态对齐训练,在此基础上添加了对比学习,并设计了两类数据扩增方法。双塔的encoder都是CodeBERT。

CoSQA数据集

文章想要实现的事情是我们可以像在网上搜图片一样,根据需求输入query,返回符合需求的代码实现(现在一般是返回博客)。文章花了很大力气构造一个这样的数据集,大概长这个样子。
在这里插入图片描述

还有大量的数据构造细节,比如部分满足query的需求,完全满足query的需求,满足少于50%的需求,仅和query有关等。

模型

在这里插入图片描述

模型的输入形式各为一条序列:[CLS] xxxxxxxx [SEP]。模型用的孪生网络,query和code都用同一个CodeBERT编码。模型的输出是 [CLS] 的表征。
q i = C o d e E R T ( q i ) , c i = C o d e B E R T ( c i ) \mathbf{q}_{i}=\mathbf{C o d e} \mathbf{E R T}\left(q_{i}\right), \quad \mathbf{c}_{i}=\mathbf{C o d e B} \mathbf{E R T}\left(c_{i}\right) qi=CodeERT(qi),ci=CodeBERT(ci)
模型不是简单的用q和c的内积计算相似度,而是再用一个MLP的计算二者的匹配关系。MLP的输出是向量,不是相似度分数
r ( i , i ) = tanh ⁡ ( W 1 ⋅ [ q i , c i ,

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值