关于Claude3.5-Sonnet引以为傲的功能,在半年前就被某国产平台无情碾压的那档事!

前言:

Anthropic声称其每隔几个月就会对Claude发布一次重大版本的更新。距离今年3月份Claude3发布,已经又过去了3个多月的时间。果不其然,6月21日Anthropic 在X上正式官宣发布全新大模型 Claude3.5 Sonnet,号称它能够碾压GPT4o,是迄今为止最智能的模型。毫无疑问,经过大家几天的测试和体验,它的模型能力确确实实称得上是头部大模型的Top1。但是今天我们要讲的是Claude3.5 Sonnet吹嘘的其在应用程序开发上的能力,实际上并没有那么厉害。关于这个能力具体是什么,后文将会给大家揭晓。但我想表达的是“这个能力”其实早在半年前国内就已经有平台实现了,甚至这个平台的能力甩开了Claude3.5 Sonnet好几条街。


 关于Claude3.5 Sonnet这里还是给大家简单的介绍一下,

(ps:给后面惊艳到你的国产平台铺垫一下~)

首先Claude3.5 Sonnet是 Claude3.5系列中的第一个模型,与Claude3.0一样,3.5也有大杯、中杯小杯三个等级。

Claude3.5 Sonnet正是3.5系列中的中杯,但是不要小看了这个中杯,Claude3.5 Sonnet的能力已经超越了3.0的大杯。

所以这里咱可以浅浅期待一手,Claude3.5 Opus(大杯)的效果。据说在未来的几个月内Anthropic就会陆续发布小杯,和大杯这两个版本。

 

如上图这是Anthropic官方发布的对Claude3.5 Sonnet基准测试结果。

从结果上来看,Claude3.5 Sonnet 在研究生水平推理 (GPQA)、本科水平知识 (MMLU) 和编码能力 (HumanEval) 三个主流基准测试中,打破了行业的记录,全面领先GPT-4o。

另外,与前代产品的提升就更不用多说了,在内部测试中Claude3.5 Sonnet解决了 64% 的错误代码问题,而 Claude 3 Opus 仅解决了 38% 的问题。

Model_Card_Claude_3_Addendum.pdf (anthropic.com)

这是Claude3.5与3的内部代码能力评估测试,感兴趣的小伙伴可以去看一下。

那接下来就是重点要讲的内容了,Anthropic在Claude3.5更新的官方公告中,特别强调了Claude 3.5 Sonnet 可以独立编写、编辑和执行代码(划重点),并具有复杂的推理和故障排除功能。

在这次更新中Claude3.5推出了一个新的功能Artifacts。简单来说就是一个动态的空间,用户在Claude3.5 Sonnet上的所有交互内容都可以在窗口上体现出来。也就是说现在可以在Claude 3.5 Sonnet上直接生成应用程序。

Claude3.5

视频中演示的应用程序,就是通过Claude3 Sonnet自动化生成的。

这个应用是一个可视化的办公桌显示屏调节的应用,看视频中的演示效果还是比较不错的。

而这样的效果,其实国内有平台在半年前就已经做到了,甚至效果比Claude3.5 Sonnet还要炸裂。

下面我们就用同一个应用程序的开发需求,来对比Claude3.5 Sonnet和国内的这个平台。

目前在Sonnet上还没有集成Python解释器,所以用React语言来表达我们的需求 

需求描述:“你能用React语言,帮我开发一个MIS 项目信息管理系统吗?让我可以直接用鼠标进行控制。信息管理系统中具体想要的功能有:1. 项目信息表 关键词: 项目名称 项目描述 项目经理 项目状态开始日期 结束日期 2. 任务管理表 关键词: 任务名称 任务描述 负责人 优先级任务状态实际开始日期 实际结束日期 依赖任务 3. 进度跟踪表 关键词:任务名称 进度百分比 完成情况 更新日期 更新人 4. 成本管理表 关键词: 成本项名称 费用类型 预计费用 实际费用 5. 风险管理表 关键词: 风险名称 风险描述 风险等级 应对措施 责任人”

在提出了这个应用开发的需求之后,Sonnet就直接打开了Artifacts窗口,开始了编写代码

代码编写好之后, Sonnet就会自动执行刚才生成的代码。但是这里可以看到因为缺少组件,没有办法进行渲染,所以程序运行失败了。

后面我又换了一种方式来重新表达了我的需求

需求描述:“你可以帮我创建一个Html版本的吗?要可以运行的,我能用鼠标进行点击操作。”

 

 提出新的需求之后,Sonnet还是会先调用Artifacts功能,然后编写代码,自动运行程序。

这里可以看到将React语言调整为html语言之后程序就开发成功了。

sonnet演示

但是在实际使用的过程中发现,部分icon点击之后没有触发效果,无法添加项目信息,且一般MIS中的基本功能也没有具备。

似乎不像是一个完整的程序,更像是一个模版?

可能是我的需求表达的不够清晰的原因,但总的来说Sonnet还是把这个应用做出来了。

那接下来就试一下在国产平台上用同样的需求看看效果如何?

需求描述:“你可以帮我开发一个MIS 项目信息管理系统吗?让我可以直接用鼠标进行控制。信息管理系统中具体想要的功能有:1. 项目信息表 关键词: 项目名称 项目描述 项目经理 项目状态开始日期 结束日期 2. 任务管理表 关键词: 任务名称 任务描述 负责人 优先级任务状态实际开始日期 实际结束日期 依赖任务 3. 进度跟踪表 关键词:任务名称 进度百分比 完成情况 更新日期 更新人 4. 成本管理表 关键词: 成本项名称 费用类型 预计费用 实际费用 5. 风险管理表 关键词: 风险名称 风险描述 风险等级 应对措施 责任人。”

在对话中输入我们的需求之后,平台的AI会直接根据需求提供一个针对性的解决方案。

在图中可以看到AI提供了一个MIS的解决方案。

选择好解决方案之后,AI竟然反馈让我们选择一下配置管理系统登录的方式

(ps:太震惊了,竟然还从产品完整性的角度来帮我们对应用的功能进行了优化!)

选择完登录方式之后,AI就直接把数据结构开发好了, 点开详情还可以查看具体的内容。

 确定无误之后,我就直接点击提交了,然后AI就马不停蹄地去开发应用了。

等了不到2分钟,AI就直接在对话框中提示应用已经开发好了,可以去体验了。 

来看一下应用的实际体验效果吧,非常炸裂,刚才需求中的所有功能全都实现了,并且所有的icon都可以进行交互。

码上飞

也就是说在这个平台上,AI会根据文字描述的需求,针对性的开发应用程序,

并且作为用户来说,没有接触到任何与代码相关的内容,所有的开发环节都是AI自己完成的。

对于小白,或者不懂软件开发的人来说简直就是王炸。

那拥有如此炸裂效果的平台到底是啥呢?

别急,我来揭晓答案。

这个平台是国内首家文生软件平台码上飞CodeFlying

码上飞 CodeFlying | AI 智能软件开发平台!

码上飞基于软件开发和大模型技术,通过对多种领域模型进行协作编排,并将 LLM 和 DevOps 工具链相结合,实现了从自然语言需求到可工作软件的自动生成。

从根本上领先于传统AI只能生成代码,辅助开发的模式。

这个平台的背后是具有北大背景的人工智能团队,团队成员在软件开发行业深耕了多年,拥有丰富的经验,并于半年前发布了这款产品。


测试完毕,总结一下,Claude3.5 Sonnet发布确实很炸裂,直接打造了大模型行业的新标杆。新功能Artifacts也很不错,创新了用户与大模型语言交互的方式。

但是在代码编写与生成可运行的应用程序上效果可能还需要考究一下(仅限于刚才的测试)。就本文测试的案例来看,在生成“复杂的项目信息管理系统”的这个软件上,确实不如国产文生软件平台码上飞CodeFlying。

Artifacts更多的是具有play的属性,而CodeFlying则是从解决真实需求和问题的角度生成应用。

效果我们姑且不论,就从时间维度上来看,码上飞早在半年前就已经推出了,而Claude3.5 Sonnet的Artifacts功能直到前几天才发布。

更不用谈Claude背后团队Anthropic所拥有的庞大资金与团队支撑。以ChatGPT Claude等为代表的大模型,几乎占据了全球AIGC市场的半壁江山。

我觉得我们还是有必要支持国人自己研发的平台,毕竟科技才是创新的唯一动力,而创新则是引领中国发展的第一动力。

未来码上飞CodeFlying,还会不断的丰富和拓展应用开发的场景,控制好产品的每一个细节,让码上飞成为AI软件开发领域的代名词!

  • 28
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Claude API是一个开发平台,旨在帮助开发者构建个性化和智能化的数字助手。它提供了一套强大的工具和功能,使开发者能够快速创建自己的聊天机器人、语音识别和自然语言处理应用等。 Claude API的核心功能包括自然语言处理(NLP)、情感分析和问答系统等。开发者可以通过API调用,实现对用户的自然语言进行分析和解读。情感分析可以帮助开发者了解用户在对话中的情绪,进而进行相应的处理和回应。问答系统则可以用于构建一个智能的问答引擎,帮助用户解决问题和获取所需信息。 该平台还支持多种语言和平台的集成,使开发者可以在不同的环境下使用Claude API进行开发。无论是在网页应用、移动应用还是智能设备上,开发者都能够轻松地将Claude API集成进去,实现个性化和智能化的交互体验。 除了基础功能外,Claude API还提供了一些高级功能,如语音识别和合成,使开发者可以通过语音交互与应用进行互动。开发者可以将语音转换为文本进行处理,也可以将文本转换为语音输出给用户,实现更加自然和方便的交流方式。 总之,Claude API为开发者提供了一个全面的开发平台,帮助他们构建个性化和智能化的数字助手。无论是在自然语言处理、情感分析还是问答系统等方面,开发者都可以借助Claude API实现出色的应用体验。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值