【AI4Code】《Unified Pre-training for Program Understanding and Generation》 NAACL 2021

最新推荐文章于 2025-12-02 00:06:55 发布

原创最新推荐文章于 2025-12-02 00:06:55 发布 · 546 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能 #数据挖掘

论文解读同时被 3 个专栏收录

100 篇文章

订阅专栏

机器学习

23 篇文章

订阅专栏

代码智能

11 篇文章

订阅专栏

PLBART是一种在NAACL2021上提出的序列到序列模型，专为程序理解和生成任务设计。它通过预训练在Java和Python函数及相关的自然语言文本上，展示了在代码摘要、生成、翻译以及程序修复、克隆检测和易受攻击的代码检测等任务上的优越性能。预训练采用了标记屏蔽、删除和填充等去噪策略。在下游任务中，PLBART不仅处理seq2seq任务，还涉及分类任务，如代码克隆和脆弱性检测。

《Unified Pre-training for Program Understanding and Generation》 NAACL 2021

文章提出的PLBART是一种序列到序列模型，能够执行广泛的程序和语言理解和生成任务。 PLBART 通过denoising autoencoding对大量 Java 和 Python 函数以及相关的 NL 文本进行了预训练。代码摘要、代码生成和七种编程语言代码翻译的实验表明，PLBART 优于或与最先进的模型相媲美。此外，在判别任务上的实验，例如程序修复、克隆检测和易受攻击的代码检测，证明了 PLBART 在程序理解方面的有效性。此外，分析表明 PLBART 学习程序语法、样式（例如，标识符命名约定）、逻辑流程（例如，else 块内的 if 块等效于 else if 块）对程序语义至关重要，因此即使在有限的注释下也表现的很好。