《CoSQA: 20,000+ Web Queries for Code Search and Question Answering》 ACL 2021
类似CLIP 做出了一个 NL-PL的query-key二分类数据集,然后类似CLIP一样双模态对齐训练,在此基础上添加了对比学习,并设计了两类数据扩增方法。双塔的encoder都是CodeBERT。
CoSQA数据集
文章想要实现的事情是我们可以像在网上搜图片一样,根据需求输入query,返回符合需求的代码实现(现在一般是返回博客)。文章花了很大力气构造一个这样的数据集,大概长这个样子。
还有大量的数据构造细节,比如部分满足query的需求,完全满足query的需求,满足少于50%的需求,仅和query有关等。
模型
模型的输入形式各为一条序列:[CLS] xxxxxxxx [SEP]。模型用的孪生网络,query和code都用同一个CodeBERT编码。模型的输出是 [CLS] 的表征。
q i = C o d e E R T ( q i ) , c i = C o d e B E R T ( c i ) \mathbf{q}_{i}=\mathbf{C o d e} \mathbf{E R T}\left(q_{i}\right), \quad \mathbf{c}_{i}=\mathbf{C o d e B} \mathbf{E R T}\left(c_{i}\right) qi=CodeERT(qi),ci=CodeBERT(ci)
模型不是简单的用q和c的内积计算相似度,而是再用一个MLP的计算二者的匹配关系。MLP的输出是向量,不是相似度分数
r ( i , i ) = tanh ( W 1 ⋅ [ q i , c i ,