首个突破ARC-AGI基准的模型来了

最新推荐文章于 2025-06-05 22:56:29 发布

啥都生

最新推荐文章于 2025-06-05 22:56:29 发布

阅读量1k

点赞数 19

分类专栏： AI资讯文章标签： agi 人工智能

本文链接：https://blog.csdn.net/zzh516451964zzh/article/details/144626242

版权

AI资讯专栏收录该内容

65 篇文章

订阅专栏

B站：啥都会一点的研究生
公众号：啥都会一点的研究生

AI科技圈最近又发生了啥新鲜事？

OpenAI发布推理系列新模型o3，突破ARC-AGI基准

OpenAI近日宣布了o1系列模型的继任者——o3和o3-mini，这两个新模型以其卓越的推理能力成为焦点。o3模型在ARC-AGI基准测试中达到了75.7%的最低性能，并且在使用更多计算资源的情况下，性能可提升至87.5%。这一成绩标志着o3成为首个突破ARC-AGI基准的AI模型，接近人类水平的表现。尽管每项任务的成本较高，o3在低计算量模式下每个任务需要17-20美元，而在高计算量模式下每个任务成本可达数千美元，但其性能的提升显示了人工智能在适应新任务能力上的重大飞跃

https://www.huxiu.com/article/3817411.html

谷歌Gemini 2.0 Flash Thinking模型：推理能力与速度的双重飞跃

谷歌最新发布的Gemini 2.0 Flash Thinking模型在推理能力上超越了o1-preview，不仅在总分上排名第一，而且在编程、数学、创意写作等各项评测任务上均表现优异。该模型不仅速度快，还能展示其思考过程，例如在14秒内破解goto数学题，速度是其他模型的5倍。此外，Gemini 2.0 Flash Thinking在解答数学期望问题时，比OpenAI的o1快了2/7的时间，并且在解答三赌徒问题时，成为首个正确解答的模型。尽管如此，模型在某些情况下也会犯错，例如在识别中文验证码时完全失败

https://www.jiqizhixin.com/articles/2024-12-20-7

英伟达奖学金公布：7位华人博士生入选，聚焦AI与计算创新

英伟达奖学金计划今年向10位博士生提供每人6万美元奖金，其中7位为华人，他们的研究领域包括自主系统、计算机架构、计算机图形学等。英伟达至今已资助近200名学生，总额达600万美元，推动了机器学习、计算机视觉等技术的发展

https://mp.weixin.qq.com/s/mUg050U7C0rXYCISNvGbiw

苹果Mac用户迎来ChatGPT深度集成应用，AI自动化任务功能升级

OpenAI的最新更新为Mac用户带来了ChatGPT的深度集成应用，特别在编程和写作方面。现在，用户可以通过简单的复制粘贴操作，利用ChatGPT与Warp、XCode等应用协同工作，实现任务自动化。此外，ChatGPT还支持与VSCode、JetBrains等编辑器的集成，并计划未来推出更多集成选项。在语音模式下，ChatGPT也能与Notion、Apple Notes等应用协同工作，通过Mac的快捷键“Option + Shift + 1”即可激活。这些更新已经在Mac的最新版ChatGPT应用中推出，而Windows用户还需等待。同时，直播中提及的“AGI_interface.swift”文件暗示了可能的AGI相关iOS应用开发

https://mp.weixin.qq.com/s/zWKE0Dg1flYrv0c1yyn2Pw

华人团队开源创世纪物理引擎Genesis，模拟速度领先世界

CMU联合20多所研究实验室开发的生成式物理引擎Genesis震撼开源，这个能够生成4D动态世界的引擎，以其前所未有的模拟速度和多模态数据生成能力，为机器人和物理AI应用开辟了新天地。Genesis的模拟速度比现有GPU加速的机器人模拟器快10到80倍，支持SOTA物理求解器，具备照片级真实感渲染，并兼容可微分模拟。在单台RTX4090上，Genesis的模拟速度比实时快约430,000倍，仅需26秒就能训练完成一个可迁移到真实世界的机器人运动策略。GitHub项目star数在发布几小时内突破1.5k，展示了其巨大的潜力和受欢迎程度

https://github.com/Genesis-Embodied-AI/Genesis

GitHub Copilot Free版上线，VS Code用户每月免费享受2000次代码补全

微软宣布GitHub Copilot Free免费版上线，全球1.5亿开发者现在可以在Visual Studio Code中免费体验AI辅助编程。免费订阅包括每月2000次代码生成和补全，以及50次聊天信息，用于编程问题解答、代码解释、BUG排查等。这一服务旨在让更多开发者享受到AI编程的便利

https://www.ithome.com/0/818/616.htm

OpenAI推出ChatGPT免费热线电话服务，老人机也能支持了。。。

美国用户现在可以通过拨打1-800-ChatGPT或1-800-242-8478来使用ChatGPT服务，无论是智能手机、老人机还是复古座机均可接入。非美国用户也可以通过WhatsApp向该号码发送消息获取回复。这项服务使得不同设备用户都能便捷地体验ChatGPT的功能

https://mp.weixin.qq.com/s/jRPDrN4XiScjvMhJsfE6Ow

国家电网发布“光明电力大模型”：千亿级多模态AI助力电力行业

国家电网有限公司推出了国内首个千亿级多模态电力行业大模型——光明电力大模型，这一人工智能“专家”在电力知识记忆理解、多模态融合分析、业务逻辑推理等方面能力卓越，较基座模型平均提升20%，专业能力比主流大模型高出15%。该模型已在电网规划、运维、运行、客户服务等多个领域得到应用，为电网安全稳定运行和新能源消纳提供强大支持

http://www.chinapower.com.cn/dlxxh/jdtt/20241220/271863.html

图森未来发布开源图生视频大模型“Ruyi”：RTX 4090 显卡即可运行

图森未来近日推出了基于DiT架构的图生视频大模型“Ruyi”，并开源了Ruyi-Mini-7B版本。这款模型专为消费级显卡设计，如RTX 4090，能够支持多分辨率、多时长视频生成，最高可达120帧/5秒。Ruyi模型拥有7.1B参数量，经过200M视频片段训练，具备首帧、首尾帧控制生成和运动幅度控制功能。尽管存在手部畸形、面部细节崩坏等问题，图森未来正积极改进，并计划在未来发布更灵活的版本以满足不同创作者的需求

https://zhuanlan.zhihu.com/p/13088479332

图森未来更名为CreateAI，拓展AI领域

自动驾驶公司图森未来（TuSimple）更名为CreateAI，标志着其从自动驾驶领域跨入AI赛道。CreateAI已获得《金庸群侠传》正版授权，将开发大型武侠开放世界RPG游戏，并与动画导演河森正治及株式会社白组合作，利用AIGC技术在《三体》IP上实现创作突破。同时，CreateAI发布了首个大模型产品“Ruyi”，旨在开源图生视频领域，并基于此打造游戏和动画制作的AI生成式工具。公司还发布了最新的商业计划书，展现企业转型内容，并强调将继续推动自动驾驶技术的商业化

https://www.ithome.com/0/818/623.htm

360发布自研AI大模型360gpt2-o1，推理能力显著提升

360公司推出了其自研的AI大模型360gpt2-o1，该模型在数学和逻辑推理任务上表现出色，通过合成数据优化、模型后训练和“慢思考”范式实现了技术突破。在多项基础数学评测和权威数学竞赛中，360gpt2-o1超越了前代模型360gpt2-pro以及GPT-4o模型，甚至超过了阿里巴巴最新开源的QWQ-32B-preview模型。该模型通过指令合成和质量筛选等方法解决了高质量数学与逻辑推理数据稀缺的问题，并通过两阶段训练策略提升了推理能力和反思纠错能力

https://ai.360.cn/

月之暗面Kimi发布视觉思考模型k1：图像理解与思维链技术新突破

月之暗面科技有限公司推出了视觉思考模型k1，该模型基于强化学习技术，支持端到端图像理解和思维链技术，并在数学、物理、化学等基础科学领域展现出色能力。k1模型在多个基准测试中表现超越了OpenAI o1、GPT-4o和Claude 3.5 Sonnet。用户可通过Kimi智能助手的Android、iPhone手机App或网页版体验k1，模型将展示完整的推理思维链，让用户看到答案生成的全过程。在OCRBench上，k1基础模型得分903，而在MathVista-testmini、MMMU-val和DocVQA基准测试集上的得分分别为69.1、66.7和96.9