讯飞星火:整体超越ChatGPT,医疗超越GPT4!一手实测在此

整体超越ChatGPT,医疗全面超越GPT-4!

五个月之后,在科大讯飞全球1024开发者节现场,刘庆峰如约而至兑现诺言,并给出新的Flag:

2024年上半年对标GPT-4!

在这里插入图片描述

不光讯飞最强星火大模型来袭,七大维度全面升级,尤其是多模态、代码生成以及复杂推理的能力,还能生成符合自己人设的AI助手。

除此之外,还有科技文献大模型、医疗大模型以及同其他企业合作的12个行业大模型一并发布。

科技文献大模型为例,它可以一分钟就能整合18篇论文,生成一篇5页的综述报告。

还能直接生成论文中提到的代码

在这里插入图片描述

医疗大模型也正式公开,化身每个人的健康助手,进行自查、用药指导以及检查/体检报告解读,并首发“讯飞晓医”APP及小程序。

在底层基础设施上,讯飞华为再次联手,发布基于昇腾生态的“飞星一号”平台发布。

正如刘庆峰所强调的那样:唯有自主可控,才有生生不息的未来

在这里插入图片描述

全面对标ChatGPT、医疗超越GPT-4

既然如此,当初的Flag都实现了吗?

首先就星火大模型V3.0本身,我们自然进行了第一手的实测。

据介绍,此次七大能力持续提升,并且全面对标ChatGPT。尤其像中文能力客观评测上超越ChatGPT,在医疗、法律、教育等专业表现也格外突出,还有在代码项目级理解能力、小样本学习、多模态指令跟随与细节表达等能力有所提升。

并且此次还新增了虚拟人格功能,它可以根据性格模拟、情绪理解、表达风格来形成一个初始人设,再结合特定知识学习、对话记忆学习,形成一个更个性化的AI人设。

在这里插入图片描述

既然如此,那么第一波就来考验一下它的基本功。

理解能力

比如一些只在中文语境下才能get到的网络梗,没想到星火与时俱进直接get。

在这里插入图片描述

就连昨天的消息也都知道。

在这里插入图片描述

接下来第二波进阶,也是最能考验大模型真正实力的代码生成能力。据介绍,目前讯飞星火代码能力已经超过ChatGPT,但略逊于GPT-4。

在这里插入图片描述

既然如此,就来实际评测一下(提示词故意有点语病):

你现在顶级程序员,请写出Resnet神经网络代码,并给出每一段代码的解释。

首先两者都正确识别了问题,给出的代码表现基本一致。

讯飞星火的回答直接分成了代码部分和解读部分。

在这里插入图片描述

而GPT-4的回答,直接将代码部分拆分并解释,这样方便代码修正和学习。

最后,再来看看新晋的看家本领——多模态生成能力。

请根据「黄河远上白云间,一片孤城万仞山。」画一幅画。

这一来考验对中文诗词的理解能力,二来考究的是大模型对空间感知的能力。

讯飞星火回答截图

在这里插入图片描述
**

GPT-4(部分回答截图)

可以看到,讯飞星火绘制的画不仅理解来中文古诗词的内容,画风也是更具有古色古韵,而且巧妙地将黄河、白云和孤城在整个空间里组合在一起。

而GPT-4则将孤城直接理解成了城市,画面也是更为现代感……

大模型AI人设这块,这也是此次发布的重点更新。可以看到在「发现友伴」这一功能上有近20种AI人格可供选择,包括像马斯克、林黛玉、哪吒、于大爷、樱花木道、秦始皇等等。

比如像这位硅谷钢铁侠,一上来脑子里全都是地球保护、殖民火星那些事儿。

在这里插入图片描述

还有像林妹妹,说话语气里带有些许婉转诗意~

在这里插入图片描述

据刘庆峰介绍,这一功能上线12小时,已有3000+人设由开发者自创。

此次大模型的专业性上也有所提升,比如在医疗领域,问上这样一个常识问题。

我24小时尿量<100毫升,我怎么了

在这里插入图片描述

在这里插入图片描述

可以看到,在「可能的原因」上双方的回答基本一致。讯飞星火风格则简单直接,还给出了「严重性」提醒。而GPT-4更为完备一些。

最后再来简单总结一下测评结果:

  • 基础能力:语义理解、时效把握以及代码生成能力上都有很大的提升;

  • 多模态生成表现不错,尤其在空间感知能力的表现;

  • 个性化上也有人格表现,但会出现原形的情况;

  • 专业性表现也基本无事实性错误,尤其医疗能力水平,给出适时诊疗提醒。

每个人的AI助手时代正在到来

除了星火大模型本身,此次科大讯飞1024开发者节可谓是干货满满——

不光有编程产品iFlyCode、科技文献大模型、医疗大模型等这些垂直领域大模型落地应用;还有同与行业龙头共创12个行业大模型、10万家企业用户,通用大模型产业生态初见雏形;另外,超脑计划2030也在有序进行。

可以说是眼花缭乱了。

但细细梳理不难发现,这些进展其实围绕着一个底层逻辑——

每个人的AI助手时代正在到来

正如刘庆峰在发布会上所强调的那样。这也是科大讯飞基于大模型技术发展的趋势理解。

ChatGPT刚出现时,就曾探讨过以ChatGPT为代表的大模型产品强大之处在于同时具备知识、推理和沟通能力。

一方面,这是实现认知智能必备的几项能力;另一方面,也是个人AI助手场景相契合。

前者是科大讯飞一直以来的技术深耕,后者则是科大讯飞在工业、科研、医疗、教育、智能汽车,甚至超脑计划的最终落地形态。

以教育为例,科大讯飞就认为目前教育「因材施教」进入到第三个层次:类人式对话辅导,进行逐层讲解

基于这样的逻辑,从科大讯飞半年落地成果,也就能从中窥见大模型发展一二。

首先是应用和业务场景

科大讯飞认为,大模型赋能首要就是工业和科研。而要赋能工业,则首先要赋能代码。

iFlyCode**。**

8月15日iFlyCode发布以来,已有62万开发者应用、107家机构深度应用。

比如“智慧教育大屏”性能优化,传统方案需要15天解决,在iFlyCode辅助下只需7天。

本次iFlyCode2.0在设计阶段、编码阶段、自测阶段都有一定的升级。

在这里插入图片描述

科技文献大模****型。

同中科院知识文献中心合作,有着包括成果调研、论文研读、学术写作、生成论文代码、润色、学术翻译等功能,可以化身当下高校研究生的科研小助手。

给一篇中文文献,结果一键就能生成英文版。

在这里插入图片描述

还能与时俱进、补充跨领域知识,比如一篇大模型文章,问到ChatGPT发展历程,还补充了现下GPT-4的发展。

医疗大模型。

它能根据体检报告、检查报告进行解读。

传统体检报告一般会有单项解读,以及像复查这种比较粗放的结论。而讯飞晓医不光给出具体指数指标,还会主动询问最近身体情况,联合各个单项结果并更新风险等级。

在这里插入图片描述

还可以根据药品照片、自身情况,给出用药建议,比如禁忌、推荐等。

除此之外,还有科大讯飞历来深耕的教育领域,讯飞AI学习机升级了英语AI答疑赋学;同科普中国一起合作发布科普大模型;还打造了AI心理伙伴等等,因材施教已取得规模化应用成果,在全国50000+所学校深度应用。

在这里插入图片描述

当然,这些进展其实都是加速讯飞超脑2030计划一部分——懂知识、善学习、能进化、让机器人走进每个家庭。

AIBOT去年发布以来,已为工业、教育、服务等领域372家企业提供服务。

中国玩家大模型加速度优势明显

不可否认的是,以星火大模型等为代表的国产大模型,在确定性方向上发展优势明显。

并且同样保持着同样明显且持续的加速度。

已经形成全球共识的,当前大模型发展已经进入到第二阶段——

大模型AI产品从炒作、演示Demo、到真正的价值导向,用户导向、场景导向。

像微软谷歌亚马逊在内的全球巨头,却面临增长的烦恼:不仅不赚钱,还要倒贴

以AI编程工具GitHub Copilot为例,微软平均每个月在每个用户身上都要倒贴20美元,最高能达80美元。

个中原因,用户找不到为大模型产品付费的理由。

更本质一点来说,大模型尚未发挥出最大的价值效能。

在这一方面上,中国玩家正在展现出自己的产业发展优势,并且优势明显。

有场景。前一波技术浪潮,AI能落地到千行百业,大模型技术同样也能落地千行百业。一方面,我国有着全球最完整的产业体系,为大模型的落地应用提供了广阔的创新空间;另一方面,在一些场景中,我国还有着不同于其他的独特优势。像教育、医疗,要实现真正的全民普惠,对技术其实提出了更高的要求。

有数据。数据的价值,从未像今天这样受到前所未有的关注。场景数据质量的好坏,直接决定了大模型的性能表现。

此前国内AI应用,已经有深厚的场景积累。如科大讯飞的认知智能技术已经在教育、医疗、金融、汽车、服务等多个领域落地,并构筑起了深厚的行业壁垒。

根据IDC研究显示,中国数据量规模将从2022的23.88ZB增长至2027年的76.6ZB,复合年均增长速度(CAGR)达到26.3%,为全球第一,为大模型的持续优化提供了海量的数据来源。

有市场。ChatGPT作为通用人工智能的代表,本身不是项好生意。OpenAI商业化只是少数,身处于国内市场大环境下的企业,通用路线往往不是一个最佳选择。垂直场景应用路线更受国内市场青睐。

有场景有数据有市场,也再次印证中国玩家率先吃到ChatGPT红利,如今发展加速度明显。

从科大讯飞的迭代应用速度就可见一斑。

在这里插入图片描述

今年2月,科大讯飞首次回应:在搞类ChatGPT产品,并给出确定时间点;

5月,讯飞星火V1.0正式发布,在语义理解,长文本生成以及数据能力三方面,据称“已经超过了ChatGPT”,并直接展现五大应用成果。

6月,星火升级至V1.5;8月,讯飞星火V2.0发布,多模态能力实现。

10月,科技文献大模型、医疗大模型等12大行业大模型发布,通用人工智能产业生态初具雏形。

……

当下大模型的发展进入到了冷静期,每个企业都在思考如何能让大模型充分发挥价值效能。即便如OpenAI的奥特曼,也在寻找自身第二增长点。

关于大模型的评测和判断,不再看发布效率、榜单分数,而是看实际应用、看产业应用生态。

这背后既需要国内底层软硬生态更紧密的合作——华为昇腾生态“飞星一号”平台发布。

也需要同行业龙头、万千开发者一起共建起通用大模型产业生态。目前关于星火大模型开发者已经有17.8万,涵盖各个领域。

大模型时代的序幕才刚刚到来

好了,对于刘庆峰说的「明年上半年对标GPT-4」的Flag,你怎么看?

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

123?spm=1001.2014.3001.5501)这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

  • 19
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值