这是2024年AI发展总结的系列章节中的第一篇季度报告文章,后面还有2、3、4季度文章,可以关注我,近期持续发布。
这几篇季度内容主要包括八个大段落:本季度AI领域新闻数据、消费级AI工具的应用、关键技术的突破、科技巨头动向、创业公司动向、中国AI的崛起与特色、开源生态的发展、应用方向的预测
AI发展季度总结报告的声明:
大家好,这里是2024年年度第一季度的AI领域发展总结报告。这份报告基于本人在2025年初对2024年的四季度(1月至12月)的AI行业公开新闻的搜集和整理,并利用AI工具进行基于我的数据和AI提示词指令进行分析和总结,力求为大家呈现这段时间内AI领域的关键动态和发展趋势。
一、数据来源与局限性: 本报告的数据主要来源于中文互联网上的公开AI领域新闻报道及行业动态信息。尽管本人已尽力确保信息的全面性和准确性,但鉴于新闻信息来源的局限性(主要为中文互联网)和个人精力的有限,加之人工智能技术的飞速发展和迭代,报告中难免存在一些信息遗漏或偏差,可能在收录国内外公司、机构等信息方面可能有所不足。
此外,由于本报告由人类搜集资料+AI工具辅助生成,虽然经过了本人的审核与校对,但受限于当前AI技术的发展水平,报告中的分析和解读也可能存在一定的主观性和局限性,甚至不排除出现AI对新闻事件、数据理解上的“AI幻觉”的可能性。
二、关于“对比”和“国内AI”的说明: 由于数据搜集主要来源于中文互联网,新闻中难免会出现国内公司/机构与国外产品的对比,以及诸如“超越xxx”等用词。虽然在当下时间点回顾,这些措辞可能略显夸张,但考虑到AI领域竞争的激烈和技术快速迭代的特点,以及各方急于寻求突破的急迫心情,一些对比也是可以理解的。本报告对这些新闻的选择标准是,主要看其报道的基本事实是否符合,而不是其使用的对比性用语。此外,鉴于数据来源和中文语境,本报告在关注国外AI发展的同时,也更多地关注了国内的AI动态,并适时提出了表扬或指出了不足。虽然本人在对AI的提示词中要求AI保持客观公正,但在最终的报告中,可能仍然会存在一些基于当时中文报道文本下的、带有倾向性的、看似不那么中立的描述,敬请各位读者理解。
三、目的与用途: 本报告的主要目的是分享信息,记录和回顾2024年4个季度AI领域的重要事件和发展脉络。报告内容仅供大家参考和了解行业动态,不构成任何形式的投资建议或其他专业意见。
四、版权与转载: 本报告内容版权归本人所有,欢迎大家转载和分享,但请注明出处,以尊重本人及AI的劳动成果。
五、补充与更正: 尽管已经尽力完善,但错误和疏漏在所难免。如果各位读者在阅读过程中发现报告中存在任何事实性错误、信息遗漏、数据过时或您认为AI解读有偏差的地方,恳请您不吝赐教,在评论区指出。本人将认真核实并及时更正,不断完善报告内容。您的每一条宝贵意见,都将帮助我们更好地理解和记录AI领域的发展历程。
2024年第一季度1-3月全球AI发展深度回顾:AI风起云涌,万象更新
引言:
2024年第一季度,人工智能领域风起云涌,创新浪潮席卷全球。从年初的CES展会,到贯穿整个季度的AI大模型迭代与应用爆发,再到季末各种创新工具和平台的涌现,AI技术以前所未有的速度进化、渗透,深刻地影响着各行各业,也改变着人们的生活方式。
这一季度,我们见证了OpenAI、Google、Meta等国际巨头的持续创新,也看到了百度、阿里、腾讯、科大讯飞等中国企业的奋起直追。技术突破与应用落地并驾齐驱,开源生态与商业化探索齐头并进,全球AI发展呈现出百花齐放、万象更新的蓬勃景象。
一、逐月梳理:全球AI发展的时间脉络
2024年1月:开年即冲刺,底层技术与应用创新齐头并进
- 1月2日:
- 清华 & 哈佛团队 推出 LangSplat,这是一个基于 3DGS 的 3D 语言场方法,能够更准确地描述 3D 场景,并且比 LERF 快 199 倍,并引入了 SAM 和 CLIP。
- 清华大学、大连理工大学、北京邮电大学 联合推出 “体验式协同学习(Experiential Co-Learning)” 框架,让 AI 总结历史经验,大幅提高学习能力。
- 三星 发布 Bespoke Jet Bot Combo 扫拖机器人,具备升级版 AI 功能与蒸气洗净技术,搭载进阶 AI 物体辨识系统。
- 美图公司 自研 AI 视觉大模型 MiracleVision(奇想智能) 通过备案,将面向公众开放。
- 微软 将移动端 Edge 浏览器 名称变更,加入 “AI” 字样,改为 “微软 Edge:AI 浏览器”。
- 1月3日:
- deepin 深度操作系统 推出 “看图 AI 插件”,支持设备端 “图像上色”、“转换风格” 等 8 大功能,在 “风格转换” 方面使用 DCT-Net 模型,在 “图片分辨率提升” 方面基于 Real-ESRGAN 算法。
- 商汤 发布 元萝卜光翼灯,达到国 AA 级标准,并支持 AI 光随书动功能。
- 1月4日:
- David Kroodsma、美国国家地理、彭博社慈善基金会 利用卫星测绘数据及 AI 技术建立世界首款 “全球船舶足迹地图”,号称能够准确记录人类在海洋中的各种动向。
- 苹果 的 Siri 融入生成式 AI 取得进展,将带来更自然的对话和个性化体验。
- 钉钉 全量上线 钉钉个人版,内置 AI 写真 / 法律助手等工具。
- 科大讯飞、统信 UOS 达成战略合作,推出 浏览器和邮箱助手。
- 微软 宣布 Win 11 文件管理器 有望迎来 Copilot 助力。
- 微软 宣布 Win11 PC 键盘 将新增 Copilot 键,可一键直达 AI 助手。
- 阿里云 的 通义千问 APP 推出图片生成舞蹈功能 “通义舞王”,用户只需上传一张照片,即可生成多种舞蹈视频,包括科目三、鬼步舞等。该功能利用阿里最新研发的 Animate Anyone 算法。
- 小冰公司 宣布获得大模型备案,小米、OPPO 等 “召唤小冰” 功能将切换服务。
- 1月5日:
- 斯坦福大学 科研团队基于 OpenAI 的 CLIP 神经网络,推出预测图像地理位置 (PIGEON) 项目,可以分析街景图片,猜测图片所在地,准确率高达 92%。
- 谷歌 旗下 DeepMind 公司起草了 “机器人宪法”,确保 AI 机器人不会伤害人类。
- 网易有道 推出 子曰教育大模型 2.0、小 P 老师、虚拟人口语私教 Hi Echo 2.0 和 有道翻译 的全新功能——有道速读 2.0,并宣布将 “QAnything” 正式开源。
- OpenAI 计划下周推出 GPT 商店,可销售 / 共享定制聊天机器人,开发者将 “根据有多少人使用你的 GPT” 来产生收入。
- 1月8日:
- 杀毒软件公司 McAfee 推出 “Project Mockingbird”,用于检测、阻止 AI 生成的语音诈骗行为,官方声称该项目的成功率超过 90%。
- 微软 的 Windows Copilot 现可截图提问。
- 1月9日:
- 作为一个开源框架,LangChain 提供了构建基于大模型的 AI 应用所需的模块和工具,使得任何人都可以基于 GPT-4 等大模型构建自己的创意应用。
- 大众汽车 宣布将 ChatGPT 引入车载助手,将在配备最新一代信息娱乐系统的特定车型中启用。
- Meta 公布 audio2photoreal AI 框架,该框架能够生成一系列逼真的 NPC 人物模型,并借助现有配音文件自动为人物模型 “对口型” “摆动作”。
- 百川智能 发布角色大模型 Baichuan-NPC,并推出了 “角色创建平台+搜索增强知识库” 的定制化方案。
- 1月10日:
- 韩国 VTouch 公司在 CES 2024 推出一款 WHSP Ring 指环,可以让用户实现低声与 AI 助手对话。
- 统信软件 的应用商店上架 UOS AI,兼容云侧端侧大模型,支持国内主流 CPU 芯片。
- 荣耀 揭晓了其自研端侧 70 亿参数平台级 AI 大模型 “魔法大模型”,将由荣耀 Magic 6 手机首发。
- 微软、太平洋西北国家实验室(PNNL) 合作,借助 AI 力量识别出新材料,应用在电池中,最多可以减少 70% 的锂金属使用量。
- 1月11日:
- 美国初创公司 Rabbit 推出的口袋 AI 设备 Rabbit R1,首批 1 万台在一天内售罄。
- 在今年 CES 2024 上,日本一家初创公司推出了给狗狗听的 AI 音乐。
- 上海AI实验室、香港中文大学数据科学院、深圳大数据研究院 联合开源了一个名为 Amphion 的音频、音乐和语音生成工具包。
- 沃尔玛 宣布将在 2024 年进一步改善数字购物体验,将生成式 AI 构建到其搜索功能中。
- OpenAI 正式推出 GPT 商店,汇聚超过 300 万个自定义版本的 ChatGPT,并发布 ChatGPT Team,收费标准为 25 美元/月。
- 1月12日:
- 施华洛世奇 Optik 发布 AX Visio 望远镜,售价为 4799 美元。据悉,这款 10 x 32 望远镜拥有 10 倍放大倍率,续航最长 15 小时,内置 NPU 神经处理芯片,号称能够辨认出 9000 种鸟类。
- Tele-AI(中国电信人工智能研究院) 宣布开源 TeleChat-7B 大模型,并开放 1T 数据集,采用 1.5 万亿 Tokens 中英文语料进行训练。
- 施华洛世奇 发布 Optik AX Visio 望远镜,内置 NPU 神经处理芯片,号称能够辨认出 9000 种鸟类,并能够实时标注鸟类种类及信息。
- 1月15日:
- 日本相机厂商 尼康 开发了一套能够提前预警奶牛分娩的 AI 系统。
- 谷歌研究院 建立了一项 “BIG-Bench Mistake” 数据集,并利用相关数据集对市面上流行的语言模型的 “出错概率” 及 “纠错能力” 进行了一系列评估研究。
- 1月16日:
- Adobe Premiere Pro 引入了全新的 AI 驱动音频编辑功能。
- 微软 的 AI 图像生成器 Image Creator 移除 “Bing” 前缀,改名为 “Designer 中的 Image Creator” 或简单的 “Image Creator”。
- 山姆会员商店 展示了一项利用 AI 识别买家购物车内容从而进行 “小票验证” 的技术,目前相关技术已经应用在北美 10 家山姆会员商店中。
- 南加州大学、哈佛大学 等机构的研究团队提出了一种全新的基于提示学习的方法 DreamDistribution,可学习个性化参照,无限生成多样图片。
- 1月17日:
- 商汤科技、上海 AI 实验室、香港中文大学、复旦大学 联合发布新一代大语言模型 书生・浦语 2.0(InternLM2),在 2.6 万亿 token 的语料上训练得到,200K 上下文,一次可读 30 万汉字。
- 1月18日:
- 联想 的 AI 助手 “小乐同学” 预计 3 个月后上线,支持自然语言交互,可一键唤醒、翻译文档、制作 PPT 等。
- 1月19日:
- Meta 宣布改组旗下 AI 部门,并着手训练自家下一代大语言模型 Llama 3。
- 微软 的 Image Creator 生成图片未来可存储至 OneDrive 云盘。
- 微软 推出独立 AI 工具 “阅读教练(Reading Coach)”,辅助提高学习者阅读能力。
- 1月20日:
- Midjourney 发布 Midjourney V6 版本更新,画质逼真,人像图片令人惊叹。
- Jan AI 发布,100% 本地运行、100% 开放源代码,是一个跨平台、本地优先和 AI 原生框架。
- 1月21日:
- 鳍源科技 发布全新自研水下AI技术——AI潜水员追踪功能,结合鳍源自研的AI水下图像过滤算法,通过鳍源自主研发的水下视觉识别技术,识别画面中潜水员运动姿态,实时自动运算分析,实现精准的水下视觉锁定和追踪。
- 1月22日:
- Stability AI 发布 Stable LM 2 1.6B 小语言模型,体积更小、性能更高效,在大多数基准测试中均优于其他参数低于 20 亿个的小语言模型。
- 百度文心大模型 落地 吉利银河 L6 车型,支持 AI 对话功能。
- 1月23日:
- 谷歌 开发了一款 ASPIRE 训练框架,为 AI 模型引入了 “可信度” 机制。
- 微软 Copilot 上线 ChatGPT GPT 功能,免费邀请部分用户体验。
- 阿里云 宣布,由中国一汽联合阿里云通义千问打造的大模型应用 GPT-BI 率先落地,可接收自然语言查询,结合企业数据自动生成分析图表,目前可达到近 90% 的准确率。
- 1月24日:
- 谷歌 发布 “艺术自拍 2”,用 AI 将自拍照 P 进不同艺术作品。
- 蚂蚁集团 成立 AI 创新研发与应用部门 NextEvo,由前谷歌 AI 工程师徐鹏掌舵。
- 1月25日:
- 百度智能云 与 中国三星 达成合作,Galaxy AI 集成文心大模型,带来 “即圈即搜” 等功能,可提供端侧赋能的通话、翻译功能,以及借助生成式AI带来的智能摘要、排版等功能。
- 夸克 上线大模型新产品 “AI PPT”,可一键生成提纲、创作 PPT。
- 1月26日:
- 腾讯文档 AI 开启公测,面向全网用户陆续开放体验,支持全品类文档生成、跨品类信息处理等。
- OpenAI 为 ChatGPT 更新了 “多语言功能” Alpha 版,用户可以将界面修改为简体中文。
- 1月27日:
- OpenAI 更新 GPT-4 Turbo 预览模型,下调 GPT-3.5 Turbo 模型 API 调用价格 50%,优化现有模型性能,并发布全新嵌入性模型。
- 印度企业家创办的 AI 初创公司 Krutrim 获得 5000 万美元融资,公司估值达到 10 亿美元。
- 联想至像 首发 AI 语音控制打印机,为即将上市的新款机型以及已经发布的 WIFI 功能的打印机都开放升级语音功能。
- 1月29日:
- 百川智能 发布超千亿参数的大语言模型 Baichuan 3,在 CMMLU、GAOKAO 和 AGI-Eval 等评测中,号称在中文任务上超越了 GPT-4。
- 谷歌研究院 推出 Lumiere “文生视频” 模型,主打采用自家最新开发的 “Space-Time U-Net” 基础架构。
- 1月30日:
- 中国台湾地区医院开发了一款基于英特尔软硬件的 AI 咽喉癌检测App。
- AMD 推出 XDNA Linux 驱动,扩展 Ryzen AI 至更多系统平台。
- 一个名为 3DHM 框架 的技术方案出现,旨在解决单张照片驱动人物模仿视频的难题。
- 北京通用人工智能研究院 研发了通用人工智能小女孩 “通通”,并于近日首次公开展出。
- 科大讯飞 正式发布 讯飞星火认知大模型 V3.5 版本,是首个基于全国产化算力平台 “飞星一号” 训练的全民开放大模型,并称整体能力接近 GPT-4。
- 科大讯飞 发布内置星火大模型 V3.5 的新一代 星火智慧黑板。
- 科大讯飞 表示,星火认知大模型 V3.5 的语言理解和数学能力已经超过 GPT-4 Turbo,代码能力达到 GPT-4 Turbo 的 96%,多模态理解达到 GPT-4V 的 91%。
- 科大讯飞 推出 星火开源大模型,基于去年 5 月的星火 1.0 版本(13B)改进而来。
- 三星 宣布 Galaxy S24 系列 旗舰手机首发搭载 Galaxy AI,并将于今年上半年下放到 2023 年的旧机型中。
- 1月31日:
- OpenAI 回应 ChatGPT 泄露私密对话 事件,称是用户账号被盗所导致。
- 中国工商银行、科大讯飞、华为、阿里云 等联合发布业内首个 代码大模型标准,适用于企业在代码大模型的研发、评估和验收等过程中。
1月总结:
1月份,全球AI领域呈现出蓬勃发展的态势,技术创新和应用落地并驾齐驱。OpenAI 的 GPT 商店正式上线,谷歌 的 Lumiere 模型在文生视频领域取得突破,Midjourney V6 版本则带来了更逼真的图像生成效果。与此同时,AI 技术进一步渗透到各个领域,从 三星 的 AI 扫地机器人,到 尼康 的 AI 奶牛分娩预警系统,再到 山姆会员店 的 AI 小票验证技术,都展示了 AI 技术的广泛应用前景。
国内方面,阿里云 的通义千问 APP 推出了 “通义舞王” 功能,科大讯飞 发布了星火认知大模型 V3.5 版本,百度文心大模型 落地吉利汽车,商汤科技 等联合发布了书生・浦语 2.0。
2024年2月:应用爆发,开源风起
- 2月1日:
- 谷歌 的 Bard 聊天机器人现已支持文生图:可免费生成 “高质量且逼真” 的图像。
- OpenAI 悄悄升级 ChatGPT:可在对话中调用不同的自定义聊天机器人。
- 2月2日:
- 据亚马逊官方介绍,亚马逊 推出 AI 助手 Rufus,已接受产品目录、客户评论、社区问答论坛和其他在线来源的培训。
- 谷歌 发布 AI 新工具 ImageFX,基于 Imagen 2 模型,可以生成高质量的图像。
- 谷歌 的 Gemini Pro 开始支持中文,Bard 学会了画画,并上新了新模型。
- 百度 的 文心一言 App 将支持一键生成 “数字分身”:一张图、三句话即可创建。
- 研华 推出 EAI-3100 边缘 AI 加速卡,采用英特尔锐炫 A370M 移动端 GPU。
- 2月3日:
- 字节跳动 的 Coze 扣子 发布,支持 30 秒无代码生成 AI Bot,集成了超过 60 种不同的插件。
- Meta 宣布今年将部署自研 AI 推理芯片 Artemis,减轻对英伟达 GPU 依赖。
- 2月4日:
- Hugging Face 发布 定制个人助手,点 2 下轻松创建,开源版 GPTs 人人免费用。
- OpenAI 推出 Vision Pro 版 ChatGPT,界面与 iPad 版客户端差别不大。
- 2月5日:
- 消息称 联想 今年将发布 AI OS 操作系统,全力推进人工智能业务。
- 阿里巴巴 的 通义千问 中,在 “通义照相馆”,用户上传自己和家人的照片,就可以生成风格多样的全家福写真。
- 2月6日:
- 昆仑万维 发布了新版 MoE 大语言模型 “天工 2.0” 与新版 “天工 AI 智能助手”App。
- Roblox 发布 AI 实时聊天翻译器,适用于 16 种语言。
- 2月7日:
- Meta 将在 Facebook、Instagram 等平台标记 AI 生成内容,确保用户知情。
- OpenAI 宣布 DALL-E 3 图像生成器 将加入水印,助用户识别 AI 生成内容。
- 2月8日:
- 苹果 展示 AI 新模型 MGIE,可一句话精修图片。
- 微软 人工智能聊天机器人 Copilot 焕新亮相,将登陆超级碗广告。
- OPPO 宣布举行“OPPO 史上最短发布会”,聚焦手机 AI 功能。
- 宜家 进驻 OpenAI GPT 商店,用 AI 为客户提供家装建议。
- 谷歌 宣布将 AI 聊天助手 Bard 更名为 Gemini,推出安卓独立应用。
- 科大讯飞 公布 2024 大模型目标:100 万生态、1000 万硬件终端、1 亿软件用户。
- 2月9日:
- 消息称 微软 内部团队已大规模部署 Copilot 方案。
- 2月10日:
- Opera 新 AI 服务器集群 落地冰岛:英伟达 DGX SuperPOD 方案,纯绿色能源驱动。
- 英伟达 成立新业务部门,专注 AI、游戏机、汽车等定制芯片开发。
- 2月11日:
- 我国研发 Q 系列人形机器人 亮相,初步实现面向不同场景技术验证。
- 2月12日:
- 谷歌 的 AI 助理 Gemini 在欧洲、亚太等地区上线。
- 杭州电视台 的 《杭州新闻联播》 首推全 AI 主持播报。
- 2月13日:
- 英伟达 推出 RTX 聊天机器人,可在 RTX 30 和 40 GPU 上免费使用。
- 微软 将 Teams 中的 Microsoft 365 Chat 更名为 Copilot。
- 2月14日:
- 苹果 推 “AI 设计师” Keyframer:听你指挥,把图片变为动画。
- 微软 的神经网络引擎 ONNX Runtime 获推 1.17 版更新,支持开发者使用浏览器训练模型。
- 诺基亚 推出面向工业的人工智能助手 MX Workmate。
- OpenAI 宣布小范围测试 ChatGPT 的 “记忆” 功能,记住用户在聊天中讨论过的事情。
- 2月15日:
- OpenAI 正开发 搜索类产品,微软 Bing 提供部分支持,意图与谷歌抗衡。
- Stability AI 推出新一代文生图模型 Stable Cascade,号称比 SDXL 更高效更强悍。
- 2月16日:
- 谷歌 开源 Magika,毫秒级识别内容类型,百万文件测试准确率超 99%。
- OpenAI 发布 Sora 模型,一句话生成 1 分钟视频,效果接近实拍。
- 谷歌 发布 Gemini 1.5 AI 模型,能处理 1 小时视频、11 小时音频、3 万行代码、70 万文字。
- 2月17日:
- Meta 推出 V-JEPA 模型,利用 AI 高效补充视频受遮蔽部分。
- IBM 推出生成式 AI 编程助手 “watsonx”,将 COBOL 代码转译成 Java 语言。
- 美国专利商标局 拒绝 OpenAI 将 “GPT” 注册为商标。
- 2月18日:
- OpenAI 的研究科学家展示了 Sora 一次性生成的包含五个不同视角的视频样本,并非拼接而成。
- 三星 在印度向 Galaxy Buds 2 / Pro 等推送 Galaxy AI,耳机也支持实时翻译。
- 亚马逊 开发出有史以来最大的 文本转语音模型,展现 “涌现能力”。
- vivo 的 蓝心大模型 登上国家网信办发布的第四批深度合成服务算法备案信息。
- 2月19日:
- OpenAI 放宽 GPT-4 Turbo 束缚:解除每日限制,每分钟最高可处理 150 万个 tokens。
- 华硕 推出 a 豆 × Hario 联名智能咖啡机 V60,利用 AI 生成 “个人专属手冲配方”。
- 2月20日:
- 微软 发布 Visual Studio 2022 17.10 首个预览版更新:改进 GitHub Copilot、自动安装推荐组件。
- 极越 的 极越 01 车型 月底前将推送 1.3.1 更新,全国首个全量 OCC 感知模型上车。
- OPPO 举行 AI 战略发布会,公布 1+N 智能体生态战略,可自由开发 AI 智能体。
- 网易有道 发布 听力宝 E6:教材同步、AI 口语听读。
- 2月21日:
- 苹果 的 mlx-graphs 项目显示,在 Apple Silicon 芯片训练大型数据集的速度可提高 10 倍。
- Adobe Acrobat 测试 AI 助手 功能:梳理 PDF 内容、回答相关提问。
- 谷歌 Play 应用商店 测试用 AI 生成应用简介,帮用户快速了解应用亮点。
- 微软 计划将 OpenAI 的 Sora 视频生成模型整合进 Copilot,但需时日。
- OPPO 表示 AI 手机 要能提供一站式服务,并且不设投入上限。
- 三星 进军 AI 半导体逻辑芯片,在硅谷开设通用人工智能计算实验室。
- 谷歌 DeepMind 推出 Gemma AI 模型,提供 2B / 7B 双版本,基准测试超越 Meta Llama-2。
- 2月22日:
- 谷歌 推出 Gemini for Workspace,每月多花 20 美元解锁 AI 写作、图像生成等功能。
- 马斯克称 xAI 将在两周后发布 Grok V1.5 聊天机器人。
- 小米 的影像大脑全面升级为 AISP,号称 “首个 AI 大模型计算摄影平台”。
- 2月23日:
- 华为 P50 Pro 手机小艺大模型版 开始众测,可体验对话式问答能力。
- Stability AI 开启文本到图像生成模型 Stable Diffusion 3 的邀测,扩展 8 亿-80 亿不同参数。
- Windows 照片应用 支持 “生成式擦除” 功能,消除照片中的干扰。
- Hugging Face 开源 “世界最大” AI 训练合成数据集 Cosmopedia,收录 250 亿个 Token。
- 字节跳动 发布文生图开放模型 SDXL-Lightning,生成速度提升十倍。
- 中央广播电视总台的 《千秋诗颂》 公布,被称为中国首部文生视频 AI 系列动画片。
- 2月24日:
- 微软 发布开源自动化框架 PyRIT,帮助安全专家和机器学习工程师识别生成式 AI 的风险。
- 英伟达 成立最壕 AI 实验室,Jim Fan 还强调,2024 年将是属于机器人、游戏 AI 和模拟的一年。
- 微软 Copilot 聊天机器人 开放 “笔记本” 功能,最高支持 1.8 万个字符。
- 2月25日:
- 谷歌 推出通用视频编码器 VideoPrism,能够通过单一冻结模型,处理各种视频理解任务。
- 特斯拉 展示第二代人形机器人 Optimus 步行能力,更加稳健流畅。
- NUS 尤洋团队 用扩散模型构建神经网络参数,直接打入了 AI 的底层。
- 中兴 宣布将发布自研 AI 大模型,以及旗下首款 AI 旗舰终端。
- 荣耀 联合微软、谷歌、英特尔、英伟达等合作伙伴带来了协同安卓和 Windows 两大平台的互联体验,通过 平台级 AI 使能。
- 2月26日:
- 传音 Tecno 发布 Dynamic 1 机器狗,会爬楼梯,可用于娱乐、教育等场景。
- 高通 推出全新 AI Hub,助力 AI 推理速度最高提升 4 倍。
- AI-RAN 联盟 在 MWC2024 成立,旨在通过与相关公司合作,将人工智能和无线通信技术相结合。
- 微软 的 画图应用 有望迎来全新 AI 功能,该功能可能依赖于 NPU 运行。
- 中央广播电视总台的 中国首部文生视频 AI 动画片《千秋诗颂》 在央视综合频道开播。
- vivo X80 系列和 iQOO 9 系列 等机型开启新一轮 蓝心大模型 公测。
- 2月27日:
- 南京大学 宣布将于 2024 年 9 月面向全体新生开设 “人工智能通识核心课程体系”,这是全国高校首创。
- 谷歌 DeepMind 推出 Genie 模型,共有 110 亿个参数,能够基于用户输入的一张图片和提示词,生成一款较为完整的 2D 平台游戏。
- 港科大(广州) 发布最新 “城市基础大模型 UFM” 综述与方案,探索城市通用智能的发展。
- Mistral AI 发布 Mistral Large 模型,性能直逼 GPT-4,并与微软官宣合作。
- Mistral AI 推出 AI 聊天机器人 Le Chat,被视为 ChatGPT 的有力竞争者。
- 微软 宣布在其 Azure AI 超级计算基础设施上可以使用 Mistral AI 的大型语言模型 Mistral Large。
- 谷歌 表示正在修复 Gemini 模型人像生成功能 的问题,希望未来几周内重新上线。
- 微软 Copilot 推出多个 定制 GPT 模型,包括健身教练等。
- 微软 发布全新 人工智能访问原则,指导公司未来拓展人工智能领域的业务发展。
- 2月28日:
- 谷歌 正与部分出版商达成协议,使用新的 生成式人工智能 (AI) 工具 创作新闻内容。
- PPPL 团队 设计开发了一种新的人工智能,可以提前 300 毫秒预测聚变中等离子体 “撕裂”。
- 微软 旗下开发者平台 GitHub 宣布,其生成式 AI 服务 GitHub Copilot Enterprise 现已面向所有企业客户开放。
- 魅族 21 手机 获推 Flyme 10.5.0.1A 稳定版更新,语音助手小溪接入 AI 大模型。
- 2月29日:
- Humane 的 Ai Pin 硬件制造商与韩国最大电信公司 SK Telecom 签订投资协议,首批产品预计 4 月中旬交付。
- Meta 计划在 7 月推出 Llama 3,继续做开源式 AI。
- IBM 发布全新 AI SSD,结合新版 Storage Defender 软件,可在 60 秒内检测并清除勒索软件。
- Adobe 推出 AI 音乐生成工具 “Project Music GenAI Control”,可根据文本生成音乐并进行精细编辑。
- 英伟达 联合 Hugging Face 和 ServiceNow 发布了名为 StarCoder2 的 LLMs 系列模型。
- 工信部 发布国内首个个人信息保护 AI 大模型 “智御” 助手,为 App 开发运营、检测防护、政策解读等提供智能化服务。
- 百度文心大模型 的日调用量已超过 5000 万次,季度环比增长 190%。三星、荣耀等企业与百度达成合作。
2月总结:
2月份,AI领域的竞争更趋白热化。OpenAI 的 Sora 模型以其惊艳的文生视频能力引发轰动,谷歌 紧随其后发布了 Gemini 1.5,并在多模态能力上持续发力。Meta 宣布即将推出 Llama 3,并开源了 V-JEPA 模型。与此同时,AI技术在各个领域的应用进一步深化,从 Adobe 的 AI 音乐生成工具,到 微软 的 Copilot 与 Visual Studio 的深度整合,再到 诺基亚 的工业 AI 助手,都体现了 AI 技术的广泛应用前景。
国内方面,字节跳动 的 SDXL-Lightning 模型提升了文生图的速度,华为、小米、OPPO、vivo 等手机厂商纷纷加码 AI 大模型,百度文心大模型 的日调用量突破 5000 万次,展现了中国 AI 产业的强劲发展势头。
2024年3月:多模态融合,垂直领域应用深化
-
3月1日:
- 旗鱼系统 Sailfish OS 母公司 Jolla 在 MWC2024 中展示了一款名为 MIND² 的 AI 智能助理硬件,可以理解为是一款路由器加了一个网页端的 AI 助理。
- 阿里巴巴 研究团队推出 AI 框架 “EMO”,该框架号称可以用于 “对口型”,只需要输入人物照片及音频,模型就能够让照片中的人物开口说出相关音频,支持中英韩等语言。
- “大模型应用产业联合体” 成立,依托华为鲲鹏硬底座和软底座,共同探索人工智能生态合作模式,建立人工智能产业标准。
- 哪吒汽车 与 360 集团合作,共同发布大模型产品 NETA GPT,将 360 智脑、360 搜索和 360 数字人等 AI 技术应用在座舱等领域。
- 传音 推出手机 AIOS:定制化 AI 助手、AI 增强摄影,其 AI 功能是通过与谷歌、联发科等的第三方合作整合至移动端。
- 韩国科学团队研发 KOALA 模型,8GB 内存就能运行,大幅降低了对硬件的需求,而且可以在 2 秒内生成高质量图片。
-
3月2日:
- 微软 的 Win11 AI 助手 Copilot 获多项技能升级:支持插件、修改设置、自定义语音命令。
- Stack Overflow 、Google Cloud 将通过 Stack Overflow 平台、Google Cloud Console 和 Gemini for Google Cloud 为开发者提供新一代 AI 驱动的功能。
- 复旦大学 团队研发 “眸思” 大模型、“听见世界”App,助视障者 “看见” 世界。
- 上海人工智能实验室 的 “风乌” 大模型 实现 10 公里级气象预报。
- 微软 发布财务版 Copilot:Microsoft Copilot for Finance,可加速对账、洞察数据。
-
3月4日:
- Anthropic 推出 Claude 3 系列模型,包含三个子模型,分别为 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus,号称已超越 GPT-4 和 Gemini 1.0 Ultra。
- 清华大学 将为 2024 级新生配备 “AI 成长助手”,建设百门 AI 赋能教学试点课程。
- 华为云 的 盘古大模型 通过金融大模型标准符合性验证,官方称行业首批、最高等级。
- 阿里巴巴 已经成立了一支 AI 电商团队,目前正在打造一款针对商家和达人的 AI 电商产品 “绘蛙”,目前已经开展了对少了部分淘宝商家的邀请测试。
-
3月5日:
- 中科院 自研 AI 大模型 “紫东太初 3.0” 上半年将发布,并表示进一步提升大模型对千行百业的赋能能力。
- 荷兰皇家航空引入名为 TRAYS 的 AI 大模型,能够更准确预测已购票旅客的实际登机人数,减少了 63% 的食物浪费。
- OpenAI 为 ChatGPT 推出了名为 “朗读” (Read Aloud) 的新功能,支持 37 种语言、5 种声音。
-
3月6日:
- 零一万物 开源 Yi-9B 模型,号称同系列代码、数学能力最强。
- 央视财经 新媒体的两位 AI 主播 “上岗”,在央视财经 App 内可 24 小时为用户解答经济、产业、旅游等领域问题。
- 百度 宣布 2024 百度 Create AI 开发者大会 将于 2024 年 4 月 16 日至 17 日在深圳国际会展中心(宝安)举办。
-
3月7日:
- 极空间 的 AI 实验室 可以帮助用户快速找出极相册中需要的图片,通过 AI 计算后,稍等片刻,就会把极相册中带 “狗” 的照片展示出来。
- 阿里巴巴 的 AtomoVideo 高保真图生视频框架,旨在从静态图像生成高质量的视频内容,保证运动一致性与流畅性。
- 微软 的 Microsoft 365 版 Copilot 4 月 1 日面向高校推出,拥有 A3 / A5 许可证可免费用。
-
3月8日:
- 英伟达 推出 生成式 AI 专家认证,费用 135 美元。
- 谷歌 优化 Gemini,可重新生成、缩短、扩充指定聊天内容。
-
3月9日:
- Patronus AI 发布了一款名为 “CopyrightCatcher ” 的 API,可用来检测大语言模型的输出结果中是否含有侵权内容。
- 联发科 旗下研究机构联发科技研究中心(MediaTek Research)推出了名为 MR Breeze-7B 的全新开源大语言模型(LLM),擅长洞察数据、支持双语互动。
- Inflection AI 发布了 Inflection-2.5 大语言模型,让 Pi 聊天机器人更聪明,也更富有同情心。
-
3月10日:
- Pika 的文生视频平台 Pika 官方放出了一段预告片和几个 DEMO,预告片中的车辆鸣笛声、刀剑呼啸声均与视频内容匹配。
- 央视 的 中国首部文生视频 AI 动画片,《千秋诗颂》英文版 采用总台最新 AI 技术译制配音完成。
-
3月11日:
- 马斯克宣布本周 xAI 将开源 Grok。
- 蔚来 宣布,2024 NOMI 焕新,GPT 领航版 正式开启招募。
- 京东 推出 “AI 全能服务包”,帮助商家免费生成图文、视频和直播。
- 谷歌 公开了一项名为 “社会学习(Social Learning)” 的 AI 框架,该框架允许 AI 语言模型能够通过自然语言互相学习。
- 汤姆猫 公司 AI 硬件团队正研发一款基于生成式人工智能技术的 AI 语音交互陪伴机器人。
-
3月12日:
- Midjourney 发布新功能,可以让生成的图像几乎保持角色一致。
- 微软 携手多家医疗机构推出 TRAIN,旨在为医疗行业开发和使用AI应用,建立并实施严格的标准。
-
3月13日:
- 初创公司 Cognition 推出全球首个 AI 软件工程师 Devin,能自学新语言、开发迭代 App、自动 Debug。
- 微软 的 Copilot 全面升级 OpenAI GPT-4 Turbo 模型,包括免费用户。
- OpenAI 的博客上疑似上线了一篇有关 GPT-4.5 Turbo 的文章,但该页面目前已被撤回。
-
3月14日:
- Cerebras 推出第三代晶圆级芯片 WSE-3,4 万亿晶体管 5nm 工艺制程,单机可训 24 万亿参数 LLM,Llama 70B 一天搞定。
- 微软 的 Copilot for Security 4 月 1 日上线,是首款生成式 AI 安全解决方案。
- 谷歌 DeepMind 团队发布了 SIMA 模型,具备约 600 项游戏技能。
-
3月15日:
- 海尔、乐聚 的人形机器人 “夸父” 在 AWE 展会现场除了展示跳跃、快走等控制性能,还展示了洗衣、浇花、插花、晾衣服等近期学习的手部操作成果。
- 零一万物 的 零一万物 API 上线,支持文档理解、图片问答等。
- 腾讯、清华大学、香港科技大学 联合推出全新图生视频模型 “Follow-Your-Click”,用户指哪动哪。
-
3月16日:
- 苹果 公司旗下研究团队公布了一款 “MM1” 多模态大模型,该模型提供 30 亿、70 亿、300 亿三种参数规模,拥有图像识别和自然语言推理能力。
-
3月17日:
- 谷歌 近日推出了一项名为 Cappy 的模型打分框架,该框架以 RoBERTa 语言模型为基础,主要用于检测模型输出的内容,并为相关内容打分。
-
3月18日:
- 马斯克旗下 AI 初创企业 xAI 宣布正在开源 3140 亿参数的混合专家模型 Grok-1 以及该模型的权重和网络架构。
- 微软 的 Windows 11 的 Dev 和 Canary 渠道正在测试为右键菜单引入 Copilot 按钮。
-
3月19日:
- 英伟达 宣布通过 Project GR00T(Generalist Robot 00 Technology)项目正式进军人形机器人领域。
- 阿里 大模型产品 “通义听悟” 发布多项新功能,上线音视频问答助手 “小悟”、一键 AI 改写、思维导图生成等六大功能。
- Stability AI 开源上新:基于 Stable Video Diffusion 的 Stable Video 3D(SV3D),只用一张图片就能生成高质量 3D 网格。
- 谷歌 发布 VLOGGER AI 模型,用户只需要输入一张肖像照片和一段音频内容,该模型可以让这些人物 “动起来”。
-
3月20日:
- 快手 CEO 程一笑称快手文生图大模型 “可图” 综合性能已超过 Midjourney V5 的水平。
-
3月21日:
- 华为云 与人形机器人创业企业 乐聚机器人 签署合作协议,共同探索 “华为盘古大模型+夸父人形机器人” 应用场景。
- 淘宝天猫集团 自研大模型 “淘宝星辰” 官网上线。
- 腾讯 的 GiiNEX AI 游戏引擎基于生成式 AI 和决策 AI 技术,提供了包括 2D 图像、动画、3D 城市、剧情、对话、关卡以及音乐等 AIGC 能力。
- Stability AI 发布 Stable Video 3D 模型,可从单张图像创建多视图 3D 视频。
- Stability AI 推出 MindEye2,该模型并不依赖于特定的提示词,而是直接基于用户脑电波生成。
-
3月22日:
- 国内首部 AI 全流程微短剧 《中国神话》 启播,其美术、分镜、视频、配音、配乐全部由 AI 完成,该剧由 央视频、总台人工智能工作室、清华大学新闻与传播学院元宇宙文化实验室 联合推出。
- 百度 的 文心一言 下个月将进行版本升级,届时也将开放长文本能力,文字范围会在 200 万-500 万。
- 谷歌 宣布旗下 Google Research 将携手 Fitbit 团队建立一款 “个人健康大语言模型(Personal Health Large Language Model)”。
- 谷歌 与斯坦福大学医学院合作,收集了涵盖各种肤色、身体部位皮肤疾病照片,整合而成一款用于 AI 训练的 “SCIN 数据集”。
- 微星 的 AMR-AI-Cobot Pro 与 AMR-AI-Delivery Robot Pro 具备精确导航的 SLAM 技术,高效 3D 路径导航和加速物体检测,英伟达 Jetson Orin 模组算力达每秒 275 TOPS。
-
3月24日:
- 一家AI初创公司 Suno 发布了首款能够生成 “广播级” 歌曲的工具 Suno V3,其能够在数秒之内创作出两分钟的完整歌曲。
-
3月25日:
- Meta 开发了一款名为 “SceneScript” 的视觉模型,该模型号称能够使用可编程语言来快速 “建立” 场景。
- 努比亚 的 努比亚 Z60 Ultra 摄影师版手机 支持 AI 双向通话实时翻译和 AI 面对面智慧翻译功能,还拥有融合 AI 影像大模型、AI“魔法功能” 以及 AI 智慧语音等功能。
- 字节跳动 的 Flow 部门 下设四大业务线,包括 AI 教育、国际化、社区和豆包。
-
3月26日:
- OpenAI 邀请艺术家们试用文生视频工具 Sora,展示了视觉艺术家、设计师、创意总监和电影制作人使用 Sora 创作的成果。
- vivo 官方宣布 蓝心大模型 迎来全新升级,整体数据量跨越式升级到 “端侧 7B”+“云侧 70B” 的超大组合。
-
3月27日:
- 主流文生图模型固然已经能生成非常逼真的图片,但通常渲染时间非常缓慢。麻省理工大学 携手 Adobe 公司近日研发了 DMD 方法,在尽量不影响图像质量的情况下,加快图像生成速度。
- Stability AI 公司面向程序员,推出 Stable Code Instruct 3B 大语言模型,其亮点在于可以从一种编程语言翻译成另一种编程语言。
-
3月28日:
- Meta 将为其 Ray-Ban 智能眼镜 带来一系列多模态 AI 功能,这些功能包括翻译、物体识别、动物及景物识别等等。
- 英伟达 的尖端图像处理半导体(GPU)H200 现已开始供货。H200 为面向 AI 领域的半导体,性能超过当前主打的 H100。
- 微软 定义 AI PC 标准:本地运行 Copilot 和搭载 40 TOPS 性能的 NPU。
- 根据 LMSYS Org 公布的最新基准测试报告,Claude-3 已经超越 GPT-4,成为该平台 “最佳” 大语言模型。
- 微软亚洲研究院 的 TaskMatrix.AI 技术,可以让大模型一口气调用数百万个 API。
- 联发科 宣布已成功在天玑 9300 等旗舰芯片上部署 通义千问大模型,首次实现大模型在手机芯片端深度适配。
-
3月29日:
- 微软 为其照片应用加入了一个 Copilot 的插件,旨在帮助用户以一种更智能的方式管理照片。
- 周鸿祎 表示,前段时间大模型行业卷文本长度,100万字 “很快将是标配”。“我们打算将这个能力开源,大家没必要重复造轮子,定为360k主要是为了讨个口彩。”他还自称 “开源的信徒”,信奉开源的力量。这里是指 360 的 360 智脑 7B 模型。
- OPPO 的 ColorOS 全新 AI 功能上线,新增小布英语老师、小布面试官和小布问答功能。
- xAI 的 Grok-1.5 将在未来几天内在 𝕏 平台上向早期测试人员和现有的 Grok 用户推出。
-
3月30日:
- OpenAI 有限开放 Voice Engine 的访问权限,该模型可以根据某人的 15 秒语音片段创建合成语音。
-
3月31日:
- 谷歌 Deepmind、斯坦福大学 的研究人员推出了一种基于大语言模型的工具 “搜索增强事实评估器”,可对聊天机器人生成的长回复进行事实核查。
- Databricks 推出了一款通用大语言模型 DBRX,号称是 “目前最强开源 AI”,该模型采用 MoE(Mixture of Experts)架构,具备 1320 亿个参数。
- 谷歌 设备和服务软件副总裁表示,Pixel 8 Pro 拥有 12GB 内存,非常适合用来运行 ‘Gemini Nano’。
- 微软 的 Azure 新增 9 款逼真 AI 语音,包括美式英语、中文等,可用于各种工作和任务。
3月总结:
3月份,AI领域的技术创新和应用落地持续深入。OpenAI 的 Voice Engine 展示了语音合成技术的惊人进步,Databricks 的 DBRX 模型则在开源领域树立了新的标杆。与此同时,AI技术在各个行业的应用更加广泛和深入,从 Meta 的 Ray-Ban 智能眼镜 的多模态 AI 功能,到 微软 定义的 AI PC 标准,再到 联发科 将 通义千问大模型 部署到手机芯片上,都体现了 AI 技术的快速发展和广泛应用前景。国内方面,周鸿祎 宣布将 360 智脑 的长文本能力开源,OPPO 的 ColorOS 推出了多项 AI 新功能,vivo 的 蓝心大模型 实现了端侧和云侧的协同升级,这些进展都显示了中国 AI 企业在技术创新和应用落地方面的积极探索。
二、消费级别的AI工具进展与国内外整体对比
总结:
2024年第一季度,消费级AI工具市场呈现出百花齐放的态势,国内外科技巨头和初创公司纷纷发力,推动AI技术加速向C端渗透。这一季度,我们看到了AI工具在提高效率、激发创意、娱乐生活等方面的显著进展。特别是AI原生应用的涌现,以及AI与现有应用的深度融合,正在重塑用户体验,并催生出新的商业模式。国内的AI工具更注重实用性和与本土生态的结合,而国际上则更强调创新性和平台化战略。总体而言,消费级AI工具正处于爆发式增长的前夜,未来将深刻改变人们的生活和工作方式。
详细阐述:
-
AI效率工具的升级:
- 国内:
- 钉钉个人版 的全量上线,集成了AI写真、法律助手等工具,标志着AI开始融入日常办公场景。
- 夸克 推出的 “AI PPT”,实现了一键生成提纲、创作PPT的功能,降低了PPT制作的门槛。
- 腾讯文档AI 的公测,支持全品类文档生成、跨品类信息处理,提升了办公效率。
- 联想 即将推出的 “小乐同学” AI助手,支持自然语言交互,可一键唤醒、翻译文档、制作PPT等,预示着AI助手将成为PC的重要组成部分。
- 京东 的 “AI全能服务包” 帮助商家免费生成图文、视频和直播,降低了电商运营的门槛。
- 国际:
- OpenAI 正式推出 GPT商店,汇聚了超过300万个自定义版本的ChatGPT,为用户提供了丰富的AI工具选择。
- 微软 的 Copilot 持续升级,例如增加了截图提问、笔记本等功能,提升了其实用性和便捷性。Microsoft 365 Copilot 4月1日面向高校推出。
- 谷歌 的 Gemini (原Bard)支持了文生图功能,并推出了 Gemini for Workspace,用户每月支付20美元即可解锁AI写作、图像生成等功能。
- 国内:
-
AI创意工具的涌现:
- 国内:
- 阿里云 的 通义千问APP 推出了 “通义舞王” 功能,用户上传照片即可生成多种舞蹈视频,展示了AI在娱乐和内容创作方面的应用潜力。
- 美图公司 的 MiracleVision(奇想智能) 大模型获批并面向公众开放。
- 字节跳动 的 SDXL-Lightning 模型,将文生图的速度提升了十倍。
- 快手 的文生图大模型 “可图” 综合性能已超过 Midjourney V5 的水平。
- 国际:
- Midjourney V6 版本更新,画质更加逼真,尤其在人像图片生成方面表现令人惊艳。
- Stability AI 推出了 Stable Cascade 和 Stable Diffusion 3,在图像生成领域持续创新。
- Adobe 推出了 AI音乐生成工具“Project Music GenAI Control” 和 Premiere Pro AI音频编辑功能,为内容创作者提供了新的工具。
- 谷歌 的 “艺术自拍2” 和 ImageFX,为用户提供了趣味性的图像生成体验。
- 国内:
-
AI娱乐生活的应用:
- 国内:
- 央视 推出了中国首部文生视频AI系列动画片 《千秋诗颂》,展示了AI在文化传播和内容创作方面的应用。
- 国际:
- Suno 公司发布了 Suno V3,能够在数秒之内创作出 “广播级” 歌曲,为音乐创作带来了新的可能性。
- Pika 的文生视频平台展示了音效与视频内容匹配的能力,提升了视频生成的真实感和沉浸感。
- 国内:
-
AI原生应用的探索:
- 国际:
- Rabbit 公司推出的 Rabbit R1 口袋AI设备,首批1万台在一天内售罄,预示着AI原生硬件设备将成为新的趋势。
- Humane 的 Ai Pin 预计4月中旬交付,这款设备也代表了AI原生硬件的探索方向。
- 国内:
- 国内目前在AI原生应用方面的探索相对较少,更多的是将AI能力融入到现有的应用中。
- 国际:
国内外对比:
- 在本季度中,国际上涌现出了更多具有创新性的消费级AI工具,例如 Rabbit R1 和 Humane Ai Pin 等AI原生硬件设备,以及 Suno V3 这样的AI音乐生成工具。这些工具不仅具有开创性,还展现了AI技术在消费级市场的巨大潜力。而国内的消费级AI工具则更注重与现有应用的结合,例如 钉钉、夸克、腾讯文档 等都将AI能力融入到产品中,提升了用户体验。
- 在平台化方面,OpenAI 的 GPT商店 已经初具规模,为用户提供了丰富的AI工具选择,并为开发者提供了新的分发渠道。国内目前还没有类似的平台出现,但像 OPPO 提出的 1+N智能体生态战略,也预示着国内厂商正在探索构建AI应用生态的可能性。
三、AI技术的关键突破:大模型性能的提升、多模态能力的融合、AI生成视频技术的飞跃
总结:
2024年第一季度,AI技术领域取得了多项关键突破,主要体现在大模型的性能提升、多模态能力的增强、以及AI生成视频技术的飞跃。这些突破不仅提升了AI模型的各项能力指标,也为AI应用开辟了新的可能性。特别是视频生成领域的突破尤为引人注目,OpenAI的Sora模型的出现,标志着AI生成视频技术进入了一个新的阶段。此外,开源模型的快速发展,也为AI技术的普及和应用降低了门槛。
详细阐述:
-
大模型性能的持续提升:
- OpenAI 更新了 GPT-4 Turbo 预览模型,并下调了 GPT-3.5 Turbo 模型API调用价格,同时优化了现有模型性能。
- Anthropic 推出了 Claude 3系列模型,并在多个基准测试中超越了GPT-4和Gemini 1.0 Ultra。
- 谷歌 发布了 Gemini 1.5,能够处理1小时视频、11小时音频、3万行代码和70万文字,极大地拓展了AI模型的上下文处理能力。
- Mistral AI 发布了 Mistral Large 模型,性能直逼GPT-4。
- 零一万物 的 API 上线,支持文档理解、图片问答等。
- 百川智能 发布了 Baichuan 3,号称在中文任务上超越了GPT-4。
- 科大讯飞 发布了 讯飞星火认知大模型V3.5,并在多个指标上取得了显著提升。
- 360 的 360智脑 宣布将开源长文本能力。
-
多模态能力的增强:
- 谷歌 的 Gemini 1.5 不仅能够处理长文本,还能够处理大量的音频和视频数据,展现了强大的多模态能力。
- 苹果 公布了 MM1多模态大模型,拥有图像识别和自然语言推理能力。
- Meta 的 audio2photoreal 框架能够生成逼真的NPC人物模型,并自动对口型和摆动作。
- Meta 的 V-JEPA 模型能够利用AI高效补充视频受遮蔽部分。
- Meta 将为其 Ray-Ban智能眼镜 带来一系列多模态AI功能。
-
AI生成视频技术的飞跃:
- OpenAI 的 Sora 模型能够根据一句话生成长达1分钟的视频,且效果接近实拍,是AI生成视频领域的重大突破。
- 谷歌 的 Lumiere 模型采用了 “Space-Time U-Net” 架构,能够生成持续时间更长、动作更连贯的视频。
- Runway 的 Gen-2 模型也展示了强大的视频生成能力。
- Pika 的文生视频平台开始支持音效匹配,进一步提升了视频生成的真实感。
- 央国内首部AI全流程微短剧 《中国神话》 的启播,标志着AI生成视频技术在国内也开始进入应用阶段。
-
其他技术突破:
- 清华 & 哈佛团队 的 LangSplat 能够更准确地描述3D场景,并比LERF快199倍。
- NUS 尤洋团队 用扩散模型构建神经网络参数,为AI模型的设计提供了新的思路。
- 谷歌 的 ASPIRE 框架为AI模型引入了 “可信度” 机制,提高了模型输出的准确率。
- Cerebras 推出了第三代晶圆级芯片 WSE-3,单机可训练24万亿参数的LLM。
四、科技巨头的战略动向
总结:
2024年第一季度,科技巨头们在AI领域的竞争更加激烈,主要体现在加大对大模型和多模态AI的研发投入、积极布局AI基础设施、以及加速AI应用的商业化落地。OpenAI、谷歌、Meta、微软等国际巨头继续引领AI技术的发展方向,并在大模型领域展开激烈竞争。
中国的科技巨头如百度、阿里、腾讯、华为等也在奋起直追,加大对AI的投入,并在各自的优势领域推动AI应用的落地。此外,英伟达继续巩固其在AI芯片领域的领先地位,而 三星、Meta 等公司则开始布局自研AI芯片,以降低对英伟达的依赖。
详细阐述:
-
OpenAI:
- 推出了 GPT商店,构建AI应用生态。
- 发布了 Sora 模型,在文生视频领域取得重大突破。
- 更新了 GPT-4 Turbo 和 GPT-3.5 Turbo,并发布了新的嵌入模型,推出了ChatGPT Team付费订阅计划。
- 宣布小范围测试 ChatGPT的“记忆”功能。
- 开放 Voice Engine 的访问权限。
- 正开发 搜索类产品。
-
谷歌:
- 发布了 Gemini 1.5,在多模态能力上取得显著进展。
- 将 Bard 更名为 Gemini,并推出独立应用。
- 推出了 Gemini for Workspace,推动AI在办公领域的应用。
- 开源了 Gemma AI模型。
- 推出了 Lumiere 文生视频模型。
- 推出了 ImageFX 图像生成工具。
-
Meta:
- 宣布改组旗下AI部门,并着手训练 Llama 3。
- 开源了 V-JEPA 模型。
- 推出了 audio2photoreal 框架。
- 计划部署自研AI推理芯片 Artemis。
-
微软:
- 在本季度的战略是深度绑定OpenAI
- 将 Copilot 整合到更多产品中,如 Windows 11、Microsoft 365、Visual Studio 等。
- 发布了 Copilot for Security 和 Microsoft Copilot for Finance。
- 与 Mistral AI 达成合作,在其Azure AI基础设施上可以使用 Mistral Large 模型。
- 推出了 TRAIN 医疗AI联盟。
- 发布了开源自动化框架 PyRIT。
-
亚马逊:
- 开发出有史以来最大的文本转语音模型。
- 推出 AI 助手 Rufus。
-
苹果:
- 宣布将在2024年在生成式人工智能领域 “开辟新天地”。
- 公布了 MM1多模态大模型。
- 推出了 Keyframer AI动画工具。
- Siri 融入生成式AI取得进展。
- mlx-graphs 项目显示在Apple Silicon芯片上训练AI模型速度显著提升。
-
英伟达:
- 成立了新的业务部门,专注于AI、游戏机、汽车等定制芯片开发。
- 推出了 生成式AI专家认证。
- 成立了 AI实验室。
- 与 Hugging Face 和 ServiceNow 联合发布了 StarCoder2 代码生成模型。
- 宣布通过 Project GR00T 正式进军人形机器人领域。
-
百度:
- 文心大模型 的日调用量已超过5000万次。
- 文心一言 即将升级并开放长文本能力。
- 与 三星 达成合作,Galaxy AI 集成文心大模型。
- 文心大模型 落地 吉利银河L6 车型。
- 举办 2024百度Create AI开发者大会。
-
阿里巴巴:
- 通义千问APP 推出 “通义舞王” 功能。
- 通义听悟 上线音视频问答助手 “小悟”。
- 成立了AI电商团队,并正在打造 “绘蛙” AI电商产品。
- 淘宝天猫集团 自研大模型 “淘宝星辰” 官网上线。
- 联发科 成功在天玑9300等芯片上部署 通义千问大模型。
- 推出了 AtomoVideo 高保真图生视频框架。
- 推出了 EMO “对口型”AI框架。
-
腾讯:
- 腾讯文档AI 开启公测。
- 推出了 GiiNEX AI游戏引擎。
- 与 清华大学、香港科技大学 联合推出 “Follow-Your-Click” 图生视频模型。
-
华为:
- P50 Pro手机小艺大模型版 开始众测。
- 与 乐聚机器人 合作,共同探索 “华为盘古大模型+夸父人形机器人” 应用场景。
- 依托华为鲲鹏,“大模型应用产业联合体”成立。
-
字节跳动:
- 发布了 Coze扣子 平台,支持30秒无代码生成AI Bot。
- 发布了 SDXL-Lightning 文生图模型。
- Flow部门 下设四大业务线,包括AI教育、国际化、社区和豆包。
-
科大讯飞:
- 发布了 讯飞星火认知大模型V3.5。
- 推出了 星火智慧黑板。
- 推出了 星火开源大模型。
-
小米:
- 小米影像大脑全面升级为AISP,号称“首个AI大模型计算摄影平台”
五、创业公司的创新实践
总结:
2024年第一季度,AI创业公司展现了强大的创新活力,在大模型、文生视频、AI硬件、AI应用等多个领域取得了显著的进展。这些创业公司往往更加聚焦于垂直领域和特定场景,并能够快速迭代和推出产品。一些创业公司还获得了资本的青睐,例如 Krutrim 成为印度首家AI独角兽企业。
详细阐述:
-
大模型领域:
- Anthropic 推出了 Claude 3系列模型,在多个基准测试中超越了GPT-4。
- Mistral AI 发布了 Mistral Large 模型和 Le Chat 聊天机器人。
- Inflection AI 发布了 Inflection-2.5 大语言模型。
- 零一万物 的 API 上线,支持文档理解、图片问答等。
- 百川智能 发布了 Baichuan 3。
- 360 的 360智脑7B模型 宣布将开源长文本能力。
-
文生视频领域:
- Runway 的 Gen-2 模型持续迭代。
- Pika 的文生视频平台开始支持音效匹配。
- Suno 发布了 Suno V3,能够生成 “广播级” 歌曲。
-
AI硬件领域:
- Rabbit 的 Rabbit R1 口袋AI设备引发了市场关注。
- Humane 的 Ai Pin 预计4月中旬交付。
- Jolla 展示了 MIND² AI智能助理硬件。
-
AI应用领域:
- Cognition 推出了全球首个AI软件工程师 Devin。
- Patronus AI 发布了 CopyrightCatcher API,用于检测大模型输出中的侵权内容。
- McAfee 推出了 Project Mockingbird,用于检测和阻止AI生成的语音诈骗。
-
获得融资:
- Krutrim 获得5000万美元融资,成为印度首家AI独角兽企业。
六、中国AI的崛起与特色
总结:
在本季度,中国AI产业展现了强劲的发展势头,在大模型、AI应用、AI芯片等多个领域取得了显著进展。中国AI的特色在于与本土产业和应用场景的紧密结合、以及在中文语境下的优势。尽管在一些方面与国际领先水平还存在差距,但中国AI的创新活力和发展潜力不容忽视。
详细阐述:
-
大模型方面:
- 百度 的 文心大模型 日调用量突破5000万次,文心一言 即将升级并开放长文本能力。
- 阿里巴巴 的 通义千问 大模型已成功部署在 联发科 天玑9300等旗舰芯片上。
- 腾讯 的 腾讯文档AI 开启公测。
- 华为 的 盘古大模型 通过了金融大模型标准符合性验证。
- 科大讯飞 发布了 讯飞星火认知大模型V3.5。
- 百川智能 发布了 Baichuan 3。
- 零一万物 的 API 上线。
- 360 的 360智脑7B模型 开源了长文本能力。
- 商汤科技 等联合发布了 书生・浦语2.0(InternLM2)。
-
AI应用方面:
- 钉钉个人版 全量上线,内置AI工具。
- 夸克 推出 AI PPT 功能。
- 阿里云 的 通义舞王 引发关注。
- 淘宝天猫集团 的 淘宝星辰 官网上线。
- 京东 推出 AI全能服务包。
- 华为、小米、OPPO、vivo 等手机厂商纷纷加码AI大模型。
- 央视 推出中国首部文生视频AI系列动画片 《千秋诗颂》。
- 哪吒汽车 与 360 合作,将AI技术应用在座舱领域。
- 海尔、乐聚 合作研发人形机器人 “夸父”。
- 极越01 车型将搭载全国首个全量OCC感知模型。
-
AI芯片方面:
- 华为 依托鲲鹏,成立了 “大模型应用产业联合体”。
- 联发科 成功在天玑9300等旗舰芯片上部署 通义千问大模型。
-
政策支持:
- 工信部 发布国内首个个人信息保护AI大模型 “智御” 助手。
- 南京大学 将开设 “人工智能通识核心课程体系”。
- 中科院 的 “紫东太初3.0” 即将发布。
- 国家网信办发布第四批深度合成服务算法备案信息,vivo蓝心大模型 等在列。
-
中国AI的特色:
- 与本土产业和应用场景紧密结合,例如 钉钉、夸克、淘宝 等都将AI能力融入到产品中。
- 在中文语境下具有优势,例如 百川智能 的 Baichuan 3 号称在中文任务上超越了GPT-4。
- 注重AI技术的实用性和落地,例如 科大讯飞 的 星火认知大模型 在教育、医疗等领域都有广泛应用。
七、开源生态的演进
总结:
2024年第一季度,AI开源生态持续繁荣,为AI技术的普及和发展注入了强大的活力。Meta 宣布将推出 Llama 3 并继续开源,Mistral AI 开源了 Mistral Large 模型,Stability AI 开源了 Stable Cascade、Stable Diffusion 3、Stable Video 3D 等多个模型,零一万物 开源了 Yi-9B 模型,360 宣布将开源 360智脑7B 的长文本能力,Hugging Face 开源了 Cosmopedia 数据集。这些开源模型和数据集的发布,降低了AI研究和开发的门槛,促进了AI技术的创新和应用。
详细阐述:
- Meta 宣布将推出 Llama 3 并继续开源。
- Mistral AI 开源了 Mistral Large 模型。
- Stability AI 开源了 Stable Cascade、Stable Diffusion 3、Stable Video 3D、Stable Code Instruct 3B、Stable LM 2 1.6B 等多个模型。
- 零一万物 开源了 Yi-9B 模型。
- 360 宣布将开源 360智脑7B 的长文本能力。
- Hugging Face 开源了 Cosmopedia 数据集。
- Tele-AI(中国电信人工智能研究院) 开源 TeleChat-7B 大模型,并开放 1T 数据集。
- 上海AI实验室、香港中文大学数据科学院、深圳大数据研究院 联合开源 Amphion 音频、音乐和语音生成工具包。
- LangChain 作为一个开源框架,提供了构建基于大模型的 AI 应用所需的模块和工具。
- 微软 发布开源自动化框架 PyRIT。
- Jan AI 发布,100% 本地运行、100% 开源代码,是一个跨平台、本地优先和 AI 原生框架。
- 联发科 旗下研究机构联发科技研究中心(MediaTek Research)推出了名为 MR Breeze-7B 的全新开源大语言模型(LLM),擅长洞察数据、支持双语互动。
八、发现国内B站上的AI应用
B站上年轻人较多,对于新兴技术也包容。我找到B站1-3月的搜索数据,找到了如下几个播放量很多的AI应用的视频与场景(部分)。
【gpt-sovits】AI声音克隆、声音复刻的广泛应用与教程
https://www.bilibili.com/video/BV12g4y1m7Uw
【[AI 孙燕姿] 《发如雪》cover 周杰伦】 https://www.bilibili.com/video/BV1yv4y1H7wz/
ComfyUI工作流的全球爆红。
阿里通义千问的通义舞王在哔哩哔哩网站上的众多鬼畜视频或者其他娱乐应用。
reecho.ai 等AI配音配音,在众多自媒体视频上的应用。
网友们利用chatgpt 上的AI绘画功能画出例如从最贫穷到最富有的每一张AI绘画图片等类型,最后组成最终的具有想象力的视频。
AI在线与离线大模型的破限、AI酒馆SillyTavern、星野APP等AI角色扮演的渐渐兴起。
九、2024年第一季度全球AI发展总结:狂飙突进,深耕应用,中国力量全面崛起
总体概括:
如果用一个词来形容2024年第一季度的全球AI发展,那就是“狂飙突进”。
这一季度,AI技术以前所未有的速度迭代升级,应用落地全面加速,产业竞争日趋白热化。如果说去年是“大模型元年”,那么今年第一季度,我们见证了大模型从“百花齐放”走向“百舸争流”,多模态AI从“初露锋芒”走向“全面融合”,AI应用从“点状探索”走向“深耕垂直”。如果说去年更多的是技术的展示和愿景的描绘,那么今年第一季度,AI已经实实在在地开始改变各行各业,并深入到人们的日常生活。特别是中国AI力量的全面崛起,为全球AI产业的发展注入了新的活力,也带来了新的变数。
关键主题点评与分析:
1. 大模型:从“军备竞赛”到“应用为王”
- 总体点评: 第一季度,大模型领域的竞争依然激烈,但已经从单纯的参数规模和榜单排名,转向了更注重模型性能的实际提升、以及更重要的是,应用场景的落地能力。OpenAI的GPT-4 Turbo、Anthropic的Claude 3、Google的Gemini 1.5、Mistral AI的Mistral Large等国际领先大模型,都在追求更强的性能、更长的上下文窗口、以及更优的多模态能力。而国内的百度文心大模型、阿里巴巴的通义千问、科大讯飞的讯飞星火、百川智能的Baichuan 3、360的360智脑等,也都在加速迭代升级,并在各自擅长的领域寻找落地场景。
- 详细分析:
- 技术趋势:
- MoE(混合专家模型)架构 成为提升模型性能的重要方向,例如昆仑万维 发布了新版 MoE 大语言模型 “天工 2.0” 与新版 “天工 AI 智能助手”App。
- 长文本处理能力 成为大模型竞争的焦点,例如Gemini 1.5能够处理70万字的文本,而文心一言也即将开放200万-500万字的文本处理能力。长文本处理能力的提升,将使大模型能够处理更复杂的任务,例如长篇报告的撰写、海量文档的分析等。
- 多模态融合 成为大模型发展的重要方向,例如Gemini 1.5能够处理文本、图像、音频、视频等多种模态的信息,而苹果的MM1模型也具备图像识别和自然语言推理能力。多模态能力的提升,将使大模型能够更好地理解真实世界,并实现更自然的人机交互。
- 应用趋势:
- 大模型开始深入垂直行业,例如华为云的盘古大模型通过了金融大模型标准符合性验证,阿里巴巴的GPT-BI应用于一汽集团,科大讯飞的讯飞星火应用于教育和医疗领域。
- 大模型赋能硬件设备,例如联发科将通义千问部署到手机芯片上,OPPO、vivo、小米、华为等手机厂商也纷纷加码端侧大模型。
- 大模型驱动应用创新,例如钉钉的AI助手、夸克的AI PPT、京东的AI全能服务包等,都为用户带来了全新的体验。
- 中国力量: 中国的大模型在本季度展现了强劲的实力,例如百川智能的Baichuan 3在中文任务上号称超越了GPT-4,科大讯飞的讯飞星火在多个指标上接近GPT-4 Turbo。中国大模型的优势在于对中文语境的深刻理解,以及与本土产业和应用场景的紧密结合。
- 技术趋势:
2. 多模态AI:从“技术展示”到“场景融合”
- 总体点评: 第一季度,多模态AI技术取得了显著进展,特别是AI生成视频领域的突破,令人印象深刻。OpenAI的Sora模型、谷歌的Lumiere模型、Runway的Gen-2模型、Pika的文生视频平台,都展示了强大的视频生成能力。如果说去年多模态AI还更多停留在技术展示阶段,那么今年第一季度,我们已经看到了多模态AI与应用场景的深度融合,例如Meta的Ray-Ban智能眼镜集成了多模态AI功能,能够进行翻译、物体识别等操作。
- 详细分析:
- 技术突破:
- Sora 的横空出世,无疑是本季度多模态AI领域最大的亮点。Sora能够根据文本指令生成长达1分钟的视频,且视频的质量、连贯性、真实感都达到了前所未有的水平。Sora的出现,标志着AI生成视频技术进入了一个新的阶段,也为影视制作、广告营销、教育培训等领域带来了无限的想象空间。国内的AI视频生成也在进步,例如《千秋诗颂》的出现。
- 除了视频生成,多模态AI在图像生成、音频生成等领域也取得了进展。例如,Midjourney V6的版本更新带来了更逼真的图像生成效果,Stability AI的Stable Diffusion 3、Stable Cascade等模型也在不断提升图像生成的质量和效率。而在音频生成方面,Suno V3能够生成“广播级”的歌曲,Pika能够为视频匹配音效,都展示了AI在音频领域的创造力。
- 应用探索:
- 智能硬件 成为多模态AI的重要应用场景,例如Meta的Ray-Ban智能眼镜集成了多模态AI功能,能够进行翻译、物体识别等操作;而OPPO的AI手机战略,也预示着多模态AI将成为智能手机的重要发展方向。
- 内容创作 领域,多模态AI的应用也日益广泛。例如,Adobe的AI音乐生成工具和Premiere Pro AI音频编辑功能,为音乐和视频的创作提供了新的工具;而谷歌的“艺术自拍2”和ImageFX,则为用户提供了趣味性的图像生成体验。
- 挑战与机遇: 多模态AI的发展仍然面临着一些挑战,例如如何提升生成内容的可控性、如何保证生成内容的真实性和安全性、以及如何降低生成内容的成本等。但与此同时,多模态AI也带来了巨大的机遇,例如在教育、医疗、娱乐、工业等领域的应用,都有着广阔的前景。
- 技术突破:
3. AI应用:从“锦上添花”到“不可或缺”
- 总体点评: 第一季度,AI应用呈现出两大趋势:一是AI原生应用开始涌现,例如Rabbit R1、Humane Ai Pin等AI硬件设备,以及Cognition推出的AI软件工程师Devin;二是AI与现有应用的融合进一步加深,例如微软的Copilot已经深入到Windows 11、Microsoft 365、Visual Studio等多个产品中,而国内的钉钉、夸克、腾讯文档等也都集成了AI能力。如果说过去AI应用更多的是“锦上添花”,那么现在,AI应用正在成为许多场景下的“不可或缺”。
- 详细分析:
- 效率提升: AI应用在提升效率方面的作用日益显著,例如AI助手可以帮助用户快速处理邮件、撰写文档、制作PPT等,AI客服可以7x24小时为用户提供服务,AI翻译可以打破语言障碍,提高沟通效率。
- 体验优化: AI应用也在不断优化用户体验,例如个性化推荐、智能搜索、智能语音交互等,都让用户能够更便捷地获取信息和服务。
- 行业赋能: AI应用正在深入到各个垂直行业,例如金融、医疗、教育、制造、零售等,帮助企业降本增效,提升竞争力。例如,华为云的盘古大模型通过了金融大模型标准符合性验证,科大讯飞的讯飞星火在教育和医疗领域都有广泛应用,阿里巴巴的GPT-BI应用于一汽集团,京东的AI全能服务包帮助商家提升运营效率。
- 中国特色: 中国的AI应用更注重与本土产业和应用场景的结合,例如钉钉、夸克、淘宝等都将AI能力融入到产品中,服务于中国用户的使用习惯和需求。此外,中国在AI+制造、AI+政务等领域也走在了世界前列。
4. 开源生态:从“百花齐放”到“头部效应”
- 总体点评: 第一季度,AI开源生态依然繁荣,但逐渐呈现出头部效应。Meta、Mistral AI、Stability AI、零一万物、360等公司开源了一系列大模型和工具,为AI研究和开发降低了门槛。但与此同时,我们也看到,头部的开源模型和平台,例如Llama系列、Stable Diffusion系列、Hugging Face平台等,正在吸引越来越多的开发者和用户,形成了一个强大的生态系统。
- 详细分析:
- 开源模型的迭代升级: 本季度,多个知名的开源模型都进行了迭代升级,例如Meta的Llama 3即将推出,Mistral AI的Mistral Large性能直逼GPT-4,Stability AI的Stable Diffusion 3、Stable Cascade等模型也在不断提升性能。这些开源模型的迭代升级,为开发者提供了更多选择,也推动了AI技术的整体进步。
- 开源平台的壮大: 以Hugging Face为代表的开源平台,已经成为AI开发者的重要聚集地。Hugging Face不仅提供了丰富的模型和数据集,还提供了各种工具和框架,方便开发者进行模型的训练、部署和应用。
- 开源社区的活跃: 开源社区在AI发展中发挥着重要的作用,例如LangChain这样的开源框架,为开发者提供了构建基于大模型的AI应用所需的模块和工具,降低了AI应用开发的门槛。
- 中国开源力量的崛起: 越来越多的中国公司和机构开始拥抱开源,例如零一万物、360、Tele-AI(中国电信人工智能研究院)、上海AI实验室等,都开源了自己的大模型或工具。中国开源力量的崛起,将为全球AI开源生态注入新的活力。
5. 产业格局:从“群雄逐鹿”到“合纵连横”
- 总体点评: 第一季度,AI产业的竞争格局更加复杂多变,既有巨头之间的激烈竞争,也有创业公司的快速崛起,还有跨界合作的不断涌现。“合纵连横”正在成为AI产业发展的重要趋势。
- 详细分析:
- 巨头竞争: OpenAI、谷歌、Meta、微软等国际巨头在大模型、多模态AI、AI基础设施等领域展开激烈竞争,不断推出新的产品和服务。中国的科技巨头如百度、阿里、腾讯、华为等也在奋起直追,加大对AI的投入,并在各自的优势领域进行布局。
- 创业公司崛起: Anthropic、Mistral AI、Inflection AI、零一万物、百川智能、Krutrim等AI创业公司在本季度表现亮眼,推出了一系列具有竞争力的产品,并获得了资本的青睐。
- 跨界合作: 越来越多的跨界合作正在涌现,例如微软与Mistral AI的合作,华为与乐聚机器人的合作,英伟达与众多汽车厂商的合作等。这些跨界合作将加速AI技术的应用落地,推动产业的快速发展。
- AI芯片竞争: 英伟达继续巩固其在AI芯片领域的领先地位,但我们也看到,三星、Meta等公司开始布局自研AI芯片,以降低对英伟达的依赖。国内的华为、阿里等公司也在AI芯片领域持续发力。
6.本季度值得关注的应用方向:
基于本季度的新闻和技术进展,以下几个新兴的应用或研究方向值得关注:
- AI视频生成的爆发: 从Sora的惊艳亮相,到Pika的音效匹配,再到国内《千秋诗颂》的推出,AI视频生成无疑是本季度最引人注目的方向。尽管目前还存在一些技术挑战,但其巨大的应用潜力已经显现,未来在影视制作、广告营销、教育培训等领域都有广阔的应用空间。这其中,AI视频生成模型的不断迭代升级,以及如何提升视频生成的稳定性、连贯性、可控性和真实感,是未来发展的关键。更多企业的涌入,也将加剧市场竞争。
- AI硬件的创新与普及: 本季度,我们看到了各种AI硬件的创新,从Rabbit R1的便携式AI设备,到施华洛世奇的AI鸟类识别望远镜,再到Jolla的AI智能助理硬件,这些设备都在尝试将AI能力以更便捷、更自然的方式融入到人们的日常生活中。随着AI芯片和算法的不断进步,AI硬件的小型化、低功耗、高性能将成为趋势
- AI Agent(智能体)的探索: OPPO提出的1+N智能体生态战略,以及多个公司推出的AI助手类产品,都预示着AI Agent将成为未来人机交互的重要方式。AI Agent可以理解为能够自主感知环境、做出决策并执行任务的智能实体,它将使人机交互更加自然和高效。未来,如何提升AI Agent的自主性、学习能力和协作能力,将是重要的研究方向。
- 多模态AI的深度融合: 本季度,多模态AI模型继续取得进展,例如谷歌的Gemini 1.5能够处理多种模态的信息,苹果的MM1模型具备图像识别和自然语言推理能力。未来,多模态AI将进一步融合视觉、听觉、触觉等多种感知能力,实现更全面的环境理解和更自然的人机交互。
结语:
2024年第一季度,全球AI发展波澜壮阔,精彩纷呈。中国AI力量的崛起,为全球AI产业的发展注入了新的活力,也带来了新的变数。我们有理由相信,在未来的日子里,AI将继续以惊人的速度改变世界,为推动人类社会进步做出更大的贡献!