前言
周总提出的2024年十大AI发展趋势预测,除了红色字体部分,截止到2月末,都已经有了突破,这表明人工智能本次的爆发的发展速度,影响深度,远远超过了人们的预期。
- 大模型成为数字系统标配,无处不在;
- 开源大模型迎来爆发;
- “小模型”涌现,运行在更多终端;产业层面;
- 大模型企业级市场将崛起,向深度化、产业化、垂直化方向发展;
- 技术发展和应用层面,Agent智能体将激发大模型潜能,成为超级生产力工具;
- 2024年将成为大模型应用场景之年,“杀手级”应用出现;
- 多模态成为大模型标配;
- 文生图、文生视频等AIGC功能突破性增长;
- 具身智能赋能人形机器人产业蓬勃发展;
- 大模型将推动基础科学取得突破。
根据周总公开课内容做一个简要总结。
1.已验证的预测
1.1开源大模型迎来爆发
ChatGPT目前处于领先地位,为了实现对它的追赶,Meta和Google相继开源了Llama-2,Gemma语言大模型。
1.2“小模型”涌现,运行在更多终端
英伟达推出Chat with RTX标志着AI PC的一个发展里程碑,发布NVIDIA RTX 500和1000Ada芯片,可在笔记本电脑运行生成式AI软件。苹果放弃造车,AII in生成式AI,三星率先推出以AI为核心的期间手机,OPPO,一加,魅族等厂商计划推出AI终端。tinyLlama 参数小于1b可以运行在电脑端。专用小模型的不断涌现,将极大加速人工智能垂直应用的快速落地。
1.3多模态成为大模型标配
多家公司发布了多模态大模型,从语言大模型到视频语义理解大模型实现了对文字,图片,视频的理解。
- OpenAI-Sora
- Google-Genie
- Meta-V-JEPA
- StabilityAI-StableDiffusion3
1.4文生图、文生视频等AIGC功能突破性增长
- AIGE能力突破性增强,视频,游戏,设计,短视频行业面临变革。
- Stable Video正式开放公测,Sora开年炸裂登场。
1.5具身智能赋能人形机器人产业蓬勃发展
- 英伟达组建“通用具身智能体”,研究小组,通用机器人基础模型有望明年问世。
- 人形机器人初创企业Figure AI获得OpenAI,微软投资,首款机器人外表动作近似人类。
- 特斯拉人形机器人Optimus更新视频,行走速度提高30%,已经接近人类的移动速度。
- DeepMind与斯坦福团队推出二代商务机器人ALOHA智能性全面提升。
1.6大模型将推动基础科学取得突破
普林顿大学研究团队开发预测等离子体撕裂AI模型,攻克核聚变反应不确定问题。
2.多模态发展的5个层次
2.1层次
- 识别辨别物体(感知能力:形态):能够识别图片中的物体。例:识别图片中有篮球和运动员。
- 逻辑推理能力(低认知能力:推理):增加大语言模型能力,具备推理能力。例:可辩别是一场篮球赛。
- 逻辑合理性(中认知能力:推理):增加多模态能力,可识别不合理内容。例:3米高的球员不现实。
- 评价鉴别能力(高认知能力:推理):可对事物进行评判,工作在语言层面。例:评价某个进球很漂亮。
- 具有世界常识(强认知能力:规律):根据观察理解事物规律,工作在视频层。例:Sora可以生成篮球比赛视频。
2.2评鉴
- 在第一个阶段,感知能力的发展使模型能够通过图像识别技术识别物体,为后续的认知能力打下基础。
- 第二个阶段,逻辑推理能力的增强使模型能够进行基本的语言推理,从而更好地理解和表达复杂的语境语义。
- 第三个阶段,逻辑合理性的提升使模型能够结合多模态信息进行判断,从而更准确地识别不合理的内容,并给出相应的提示和解释。
- 第四个阶段,评价鉴别能力的加强使模型能够对事物进行评判和表达观点,从而更好地与用户进行互动和交流。
- 第五个阶段,具有世界常识的模型能够观察并理解事物的规律,并在视频层面生成相应的内容,从而更好地模拟和应用于现实场景。
2.3进一步预测
第六个阶段:创造性思维和创新能力 随着人工智能的不断发展,大模型可能会具备更强的创造性思维和创新能力。它可以通过结合不同领域的知识和观点,提出新颖的创意和解决方案。这将使模型成为一个有创造力的合作伙伴,能够为用户提供独特而创新的想法。
3.AI发展的5个阶段
3.1人工智障
AI小模型,能力单一,无法泛化,无法做到理解。
3.2人工智能入门
GPT出现,AGI迎来拐点,机器实现与人的交流。
3.3通用人工智能
Sora出现,AGI时代加速到来,机器能够认知世界互动。
3.4强人工智能
附身于自动驾驶,机器人,获得与人类同样的感知,认知和行动力。
3.5超级人工智能
发现和总结世界运行的各种规律,总结公式。