编码碾压ChatGPT，UIUC清华联手发布7B参数Magicoder，代码数据权重全开源

最新推荐文章于 2024-10-31 14:05:03 发布

码字大神

最新推荐文章于 2024-10-31 14:05:03 发布

阅读量531

点赞数 9

文章标签： chatgpt 人工智能 gpt

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43769323/article/details/135108596

版权

为什么OSS-INSTRUCT如此神奇？

全新代码大模型Magicoder，不到7B参数，就能在代码生成领域与顶级代码模型不相上下。

开源「代码大模型」来了！

UIUC清华团队的研究人员发布了Magicoder，不到7B参数，就能在代码生成领域与顶级代码模型不相上下。

值得一提的是，Magicoder的代码、权重和数据，毫无保留完全开源。

论文地址：https://arxiv.org/abs/2312.02120

Magicoder依靠的OSS-INSTRUCT的方法，是通过对现有顶级代码模型（例如ChatGPT）的提示，加上网络上的种子代码片段，来生成的代码。

这可真是取之于大模型，用之于大模型；就有网友转发说道：通过这些结果，看到了提高用于LLMs的合成数据的潜力也是一个非常有趣的领域。

话不多说，那就让我们来具体了解一下Magicoder的来历吧！

代码生成的发展史

代码生成（Code Generation），也叫程序合成（Program Synthesis），近几十年来，一直都是学术界的一块「硬骨头」，在此领域进行过的许多尝试，例如基于抽象的合成和基于示例的编程，都没有取得很好的效果。

直到最近，使用在代码上训练的大型语言模型取得了显著的突破，被广泛应用于辅助实际软件开发。

最初，诸如GPT-3.5 Turbo和GPT-4之类的闭源模型主导了各种代码生成基准和排行榜。

为了推动开源LLM在代码生成领域的应用，SELF-INSTRUCT方法被开发出来，通过使用强大的LLM生成合成的编码指令，并利用这些指令对较弱的学生模型进行微调，以从强大的教师模型中提取知识。

然而，SELF-INSTRUCT在提高LLM的指令遵循能力时，仍然依赖于狭窄范围的预定义任务或启发式方法。

为了解决这一问题，UIUC和清华的研究人员提出了Magicoder，其中采用的OSS-INSTRUCT方法，旨在减轻LLM固有的偏见，通过直接学习开源代码释放其创造高质量和创意编码指令的潜力。

OSS-INSTRUCT通过从开源中搜集的随机代码片段获得灵感，自动生成新的编码问题。借助于不同的种子代码片段，OSS-INSTRUCT能够直接产生多样、真实和可控的编码指令数据。

如下图所示，在这个例子中，LLM从两个不同函数的不完整代码片段中获取灵感，成功地将它们关联起来，并构建出一个现实的机器学习问题。

由于OSS-INSTRUCT与现有的数据生成方法是正交的，OSS-INSTRUCT可以被同时结合使用，进一步推动模型在编码任务中的能力。

为什么OSS-INSTRUCT如此神奇？

OSS-INSTRUCT的工作方式是通过对LLM（例如ChatGPT）进行提示，然后根据从互联网搜集的一些种子代码片段（例如来自GitHub）生成编程问题及其解决方案。

一方面，种子片段提供了生成的可控性；

另一方面，OSS-INSTRUCT加强了LLM创建编程问题的多样化，更符合真实的编程场景。

我们可以从以下几个指标中一探究竟：

1. 类别平衡

如下图所示，通过计算OSS-INSTRUCT中每个样本的嵌入与这10个类别之间的余弦相似性，可以看出其在不同类别之间表现出了多样性和平衡。

2. 长度分布

下图展示生成问题和解决方案的长度分布，良好的平衡性让OSS-INSTRUCT更贴合实际应用场景。

3. 与HumanEval的相似性计算

下图展示了与HumanEval样本的余弦相似性。

可以看出，OSS--INSTRUCT在所有研究的数据生成技术中表现出最低的平均相似度，这说明OSS--INSTRUCT生成的数据是最富有多样性的。

但是，既然OSS-INSTRUCT获取到的种子片段来自于开源代码，为什么不直接在这些开源代码上进行微调呢？

为了回答这个问题，研究人员遵循CodeSearchNet，使用基础的CODELLAMA-PYTHON-7B对配对数据进行了2个时期的微调，遵循相同训练设置。

对比结果如下表，在75,000个配对注释-函数数据上，微调甚至使基础模型恶化，而OSS-INSTRUCT有助于引入实质性的提升。

研究人员推测，这种恶化可能是由这些配对数据固有的大量噪声和不一致性导致的。

这进一步表明，数据的真实性对于代码指令调整至关重要，而非格式。

该结果还凸显了OSS-INSTRUCT的优越性，可以将这些松散相关的代码片段转化为语义一致的指令调整数据。

Magicoder表现评估

研究团队首先构建了使用OSS-INSTRUCT进行训练的Magicoder系列，同时进一步组合使用OSS-INSTRUCT和Evol--INSTRUCT构建了MagicoderS系列，并在两个系列上都进行了测试。

代码生成基准使用的是HumanEval和MBPP，这是目前两个最广泛使用的基准。这些基准中的每个任务都包括一个任务描述（例如docstring）作为提示，然后让LLMs生成相应的代码。其正确性由少量测试用例进行检查。

为了更严格的评估，研究人员还使用了由EvalPlus框架支持的HumanEval+和MBPP+以获取更多的测试。

值得注意的是，MagicoderS-CL和MagicoderS-DS在HumanEval+上的表现都优于只有7B参数的ChatGPT。

让我们具体看下Magicoder的表现：

1. Python语言

我们首先可以观察到Magicoder-CL相在HumanEval和HumanEval+上相对于CODELLAMA-PYTHON-34B有了实质性的改进。

MagicoderS-CL在HumanEval+上优于ChatGPT和所有其他开源模型。

此外，尽管在HumanEval上得分略低于WizardCoder-CL-34B和ChatGPT，但在更严格的HumanEval+数据集上超过了它们，这表明MagicoderS-CL可能生成更稳健的代码。

2. 其他编程语言

在除了Python之外的语言对比中，Magicoder-CL在所有研究过的编程语言中都大幅超过了基础的CODELLAMA-PYTHON-7B。

此外，MagicoderS-CL在所有编程语言上都进一步改进了Magicoder-CL，仅使用7B参数就实现了与WizardCoder-CL-34B相当的性能。

值得注意的是，Magicoder-CL仅使用非常有限的多语言数据进行训练，但仍然优于其他具有相似甚至更大规模的LLMs。这意味着LLMs可以从数据中学习超出其格式的知识。

3. 数据科学库

最后，针对7个热门Python数据科学库的1,000个独特的数据科学编码问题（DS-1000 dataset），研究人员也进行了单元测试，旨在评估LLMs在实际用例中的表现。

从表中可以看出，Magicoder-CL-7B已经在所有评估的基线中表现出色，包括最先进的WizardCoder-SC-15B，改善了8.3个百分点。

虽然Magicoder还不够完美，但作者认为，通过公开分享所有的数据和代码细节，会有越来越多的先进代码模型出现。

让我们也拭目以待。

本篇攻略评测来源：slsrj.com

关注

9
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

码字大神 CSDN认证博客专家 CSDN认证企业博客

码龄6年

282: 原创

79万+: 周排名

14万+: 总排名

19万+: 访问

: 等级

6882: 积分

2713: 粉丝

3920: 获赞

8: 评论

3805: 收藏

私信

关注

热门文章

最新评论

三行代码无损加速40%，尤洋团队AI训练加速器入选ICLR Oral论文
好甜.: 请问这个对VMamba适用吗？为什么我用了之后速度并没有提升呢？
Nature：2024 年值得关注的科学事件，GPT-5、嫦娥六号、超级计算机等上榜
CSDN-Ada助手: 恭喜你写了这么精彩的博客！对于科学技术的关注和研究，你的热情让人非常钦佩。我觉得你在探讨科学事件方面有着很深的见解，不过或许可以尝试探讨一些与科学相关的社会议题，比如科技发展对环境的影响，或者科学伦理等话题。希望你的创作能够继续取得成功，期待你更多的精彩文章！
自动驾驶“风云再起”：宝马奔驰之后，智己成首个官宣获L3测试牌照的自主品牌
CSDN-Ada助手: 恭喜恭喜！看到您不断关注并分享自动驾驶领域的最新动态，真是令人钦佩。希望您在未来的创作中能够继续保持对行业最新信息的关注，也可以多与专业人士交流，深入了解自动驾驶技术的发展趋势和前沿领域，为读者带来更丰富、更深入的内容。期待您的下一篇精彩博文！
大厂百万年薪抢人，大模型三大竞争力：赚钱、人才、数据
CSDN-Ada助手: 恭喜作者第13篇博客发表！标题看起来非常吸引人，大厂百万年薪抢人，大模型三大竞争力：赚钱、人才、数据。希望作者能够继续分享更多关于大模型和人才抢夺的有趣观点和见解。或许下一步可以深入探讨大模型在赚钱、人才和数据方面的具体应用案例，让读者更加深入地了解这些竞争力。期待作者的下一篇博客！
编码碾压ChatGPT，UIUC清华联手发布7B参数Magicoder，代码数据权重全开源
CSDN-Ada助手: 恭喜你能够连续发布了14篇博客，每篇都有深度和独特的见解，让读者受益匪浅。对于Magicoder的发布，我感到非常兴奋，这将对编码领域产生深远的影响。希望你在未来的创作中，可以更多地分享你的研究成果和心得体会，让更多人受益。加油！

大家在看

lanqiaoOJ 1110：小王子单链表 ← STL list

最新文章

2024

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。