排行榜断层第一!Cosine推出“最强、最接近人类”的AI程序员!

对AI写代码这件事情,大家已经不陌生了。谁还没有在写程序卡壳的时候问过AI呢?

AI初创公司Cosine,宣布推出世界上最强的AI程序员Genie

图片

根据第三方基准测试SWE-Bench,Genie的得分为30%,位居排行榜第一,拳打GPT4、脚踢Devin。

图片

▲SWE-Bench的测试结果

Genie是什么?

Genie作为一个 AI 编程模型,它可以根据人们下达的各种指令,自主搞定各种编码任务,不管是修 bug、搭功能、重构代码还是做测试,样样精通。

它既能自己一个人单干,也能跟其他程序员一起合作,给人的感觉和真人同事在一起干活没有什么区别。

Cosine的CEO Alistair Pullen写道:

“我们一直在追逐一个梦想,即构建一种能够真正自动执行端到端编程任务的东西,无需干预和高度的可靠性——一个人工同事。Genie 是做到这一点的第一步。”

此外他还在推特上自豪地表示,“这个模型不仅仅是30%的评测分数,它从一开始就被训练成像人类程序员一样。”

从Cosine放出的演示来看,Genie可以实现写代码、做测试、找bug一条龙服务,工作效率妥妥的。

,时长01:56

而且Genie还支持十五种编程语言。无论是C、C++还是JavaScript、Python,它都不在话下。

目前它已经开放测试了,感兴趣的小伙伴们可以点击下方链接申请一个账号体验体验。

https://cosine.sh/register

像身边的同事一样存在

Cosine声称,Genie能够模拟人类程序员的思考方式。

在开发模型的时候,研发者让Genie观察人类程序员是如何完成工作的,然后模仿这个过程。久而久之,Genie就从各路程序员手中学得写代码的方法技巧了。

Cosine 的软件平台已经与Slack(国外的钉钉、飞书)进行了集成,在平台上可以及时提醒其他同事关注状态、提出疑问或是标记问题,就像一位真人同事再和你协同办公一样。

Alistair Pullen解释说:

“我们希望Genie能够像一个真正的同事那样工作,因此让它通过同事常用的渠道进行交流是最合适的。”

此外,Genie生成的代码会被保存在用户的GitHub仓库中, Cosine不会留存任何副本,能够避免数据外泄,保证了数据安全。

AI程序员背后的独家数据集

没有好的数据集就喂不出好的AI,这一点Cosine心知肚明。

Alistair Pullen在Cosine的技术报告里表示,在最近的一次训练过程中,Genie是在一个由几十亿个token组成的混合数据集上学习的。

这套数据集是精心处理过的,就是为了确保模型能跟上咱们用户最关心的编程语言。

Cosine在博客文章里透露,他们花了快一年的时间才攒出了这么一个数据集,里面包含了真实世界里工程师们各种各样的编程活动。

可实际上,要拿到这种数据,再把它用起来,那可真是难上加难,因为这东西本来就不好找。Cosine的数据处理流程是把人工制品、静态分析、自我模拟、逐步验证还有在大量带标签数据上训练过的AI模型结合在一起,这样就能一步步复原出程序员是怎么得出最终结果的。

Alistair Pullen吐槽说,

“给数据打标签这事儿,重要性不能低估,想从一流的程序员那里搞到高质量的数据,不容易啊。但是,这事儿值!因为它能给我们带来很多灵感,让我们知道程序员们到底是怎么琢磨着解决问题的。”

团队先从程序员干活留下的痕迹开始,比如拉取请求、提交记录、开源项目里的问题等等,然后再把这些数据扔进Cosine的数据处理流程,一步步推敲,重建出程序员们得出结论的思维过程。这个数据集不只是完美地展现了信息的传承和知识的积累,还捕捉到了人类工程师做决策的全过程。

这个独家的数据集就是第一次训练的基础,然后Genie就靠自我博弈和自我完善来继续前进。

“我们用这个数据集来训练模型,而不是仅仅给模型提个醒儿,像别人那样干,结果咱们发现,模型现在不只是胡乱生成代码,而是真刀真枪地像个人类工程师那样解决问题了。”Alistair Pullen说。

凭借其对较长上下文对话的支持和持续的改进循环,Genie会迭代和完善其解决方案,直到它们达到预期的结果。

Genie的未来

Genie的推出,对许多软件开发团队带来了新的机遇,借助AI程序员,他们可以在提高生产力的同时减少日常任务时间,把时间花在更重要的地方,而不是天天都忙着复制粘贴、调试和找bug。也许在写这篇文章的时候,Cosine就正在用Genie帮忙找bug和测试呢。

Cosine要做的,还不仅仅是AI程序员。“我们真的相信,我们能够为任何工作和行业编纂人类推理。”Alistair Pullen信心满怀,“软件工程只是最直观的起点,我们迫不及待地想向你展示我们正在做的其他一切。”

那么我们就拭目以待吧。

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值