PyTorch提速10-100倍，全球首个AI CUDA工程师诞生！

最新推荐文章于 2025-04-25 13:14:22 发布

啥都生

最新推荐文章于 2025-04-25 13:14:22 发布

阅读量645

点赞数 9

分类专栏： AI资讯文章标签：人工智能 pytorch python

本文链接：https://blog.csdn.net/zzh516451964zzh/article/details/145780109

版权

AI资讯专栏收录该内容

62 篇文章

订阅专栏

B站：啥都会一点的研究生
公众号：啥都会一点的研究生

上周国内外AI科技圈又发生了啥新鲜事？

DeepSeek 宣布下周陆续开源 5 个代码库，推翻象牙塔

DeepSeek 宣布将在本周陆续开源 5 个代码库，每日解锁新内容。公司表示，这些代码库已经经过测试和部署，可投入生产环境。DeepSeek 自称为“小小的团队”，强调其车库创业精神和社区共筑的创新理念，致力于打破行业壁垒，推动技术共享与行业发展

https://www.ithome.com/0/832/584.htm

全球首个AI CUDA工程师诞生，将PyTorch原生实现提速10-100倍

日本AI初创公司Sakana AI开发的「AI CUDA工程师」框架，通过将进化计算与大型语言模型结合，实现了从PyTorch代码到高度优化CUDA内核的自动转换，显著提升AI模型在NVIDIA硬件上的运行效率。该框架生成的CUDA内核比PyTorch原生操作提速10-100倍，甚至超越现有生产环境中的优化内核。尽管其技术报告受到一些质疑，但这一创新展示了AI自我优化的巨大潜力，为未来AI的高效运行提供了新思路

https://www.jiqizhixin.com/articles/2025-02-21-7

Spotify 推出 AI 配音有声书服务，支持 29 种语言

Spotify 与 AI 语音提供商 ElevenLabs 合作，正式推出 AI 配音有声书服务。作者可以使用 29 种语言为有声书配音，并选择多种合成语音选项。免费版软件每月提供 10 分钟文本转语音服务，而 Pro 订阅（99 美元/月）可生成 500 分钟配音，相当于一本普通有声书的长度。Spotify 表示，AI 配音将帮助小型作者以更低的成本制作有声书，并推动旧书有声书的制作。所有 AI 配音的有声书将在描述中标注，明确告知听众

https://www.ithome.com/0/832/529.htm

何恺明新作：扩散模型无需噪声条件，实验结果颠覆传统认知

何恺明团队的最新研究发现，去噪扩散模型在无噪声条件的情况下依然可以良好运行，甚至在某些情况下表现更优。研究通过理论分析和实验验证，提出了一个无需训练的误差边界，并设计了无噪声条件的模型变体uEDM，在CIFAR10数据集上实现2.23的FID得分，接近噪声条件模型的最佳表现（FID为1.97）。这一成果有望为去噪生成模型的发展开辟新方向

https://mp.weixin.qq.com/s/zLqWlKVpK8tM_x9uuPx4wg

xAI宣布Grok 3免费开放，直至服务器不堪重负

xAI宣布其“世界最智能AI”系统Grok 3现在免费向公众开放，直至服务器不堪重负。此前，Grok 3仅对X Premium+或SuperGrok订阅用户开放。Grok 3在数学、科学和编码等复杂任务上的表现优于竞争对手，如ChatGPT和DeepSeek。xAI还透露，开发者将很快可以通过API访问Grok 3的标准版和推理版，并使用深度搜索功能

https://x.ai/blog/grok-3

硅基流动完成亿元人民币Pre-A轮融资

北京硅基流动科技有限公司于2024年底完成了亿元人民币的Pre-A轮融资，由华创资本领投，普华资本跟投，老股东耀途资本超额跟投。硅基流动成立于2023年，致力于打造AI基础设施平台，通过算法、系统与硬件的协同创新，降低AI应用的开发和使用门槛。其大模型云服务平台SiliconCloud上线不到一年，用户数超300万，日均调用上千亿Token，支持上百款主流模型，并提供全链路服务。本轮融资后，公司将加速技术创新，助力开发者实现“Token自由”，并推动AGI技术普及

https://mp.weixin.qq.com/s/NyStkbw_JgTulQ-RiA2V4A

Kimi 智能助手推出最新模型 kimi-latest

Kimi 智能助手开放平台近日上线了新模型 kimi-latest，以满足开发者对最新模型能力的需求。该模型将始终对标 Kimi 智能助手当前使用的最新模型，支持上下文长度达 128k，并具备视觉理解能力。开发者可通过 API 调用体验其最新特性，同时保持原有模型的稳定性。kimi-latest 适用于构建聊天应用、智能助手或客服场景，而结构化数据提取等任务仍推荐使用 moonshot-v1 系列模型

https://mp.weixin.qq.com/s/cS0DGGqUP1JOFSnzFWiqJQ

阶跃星辰联合吉利开源多模态大模型

阶跃星辰与吉利汽车集团联合开源了两款多模态大模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音模型。其中，Step-Video-T2V 参数量达 300 亿，可生成高质量视频，性能在全球开源视频生成领域领先；Step-Audio 是业内首款产品级开源语音交互模型，支持多种语言风格和音色克隆。此次开源旨在推动 AGI 发展，为全球开源社区贡献中国力量

https://mp.weixin.qq.com/s/_mmwfiA7L3UQMflPFevVGg

秘塔AI推出“浅度研究”模式，可在 2-3 分钟内完成数百网页分析

秘塔AI搜索上线了“浅度研究”模式，采用“小模型+大模型”协同架构，通过 DeepSeek R1 完成推理任务，结合秘塔自研模型完成快速信息搜索与整合。该模式可在 2-3 分钟内完成数百个网页的搜索与分析，帮助用户快速收集信息并完成初步分析，未来还将加入代码执行和数值分析能力，进一步提升研究效率

https://mp.weixin.qq.com/s/L9lUlYJglyp9iMsr9DcJAw

昆仑万维开源AI短剧创作模型SkyReels-V1

昆仑万维开源了中国首个面向AI短剧创作的视频生成模型 SkyReels-V1 和表情动作可控算法 SkyReels-A1。SkyReels-V1 支持影视级人物微表情表演和电影级光影美学，能够生成高质量的短剧视频；SkyReels-A1 则可实现高保真微表情还原和人物动作驱动。此次开源旨在降低AI短剧创作成本，推动行业生态繁荣发展

https://mp.weixin.qq.com/s/ZIYC_tr7dZ3kmUrrajpXjg

YOLOv12震撼发布，首个以Attention为核心的YOLO框架

YOLOv12正式发布，作为首个以Attention为核心的YOLO框架，它通过创新的区域注意力模块（Area Attention）和残差高效层聚合网络（R-ELAN），解决了传统Attention机制在计算效率和优化稳定性上的难题。实验表明，YOLOv12在多个尺度模型上均展现出显著性能提升，例如N-scale模型的mAP提升3.6%，同时保持了极高的推理速度（1.64ms/图像）。此外，它在参数量和CPU推理速度上也实现了优化，进一步提升了实时目标检测的效率

https://mp.weixin.qq.com/s/Ns6f1TDxoeuveYDqTKrXPg

DeepSeek R1方法成功迁移到视觉领域，多模态AI迎来新突破

DeepSeek 的 R1 方法被成功迁移到视觉语言领域，推出了开源项目 VLM-R1。该项目在 Qwen2.5-VL 基础上验证了 R1 方法的稳定性、泛化能力和易用性，表现出色。VLM-R1 不仅能准确理解视觉内容，还能进行专业推理和清晰的文本表达，为多模态模型训练提供了新思路，有望引领视觉语言模型训练新潮流

https://www.jiqizhixin.com/articles/2025-02-20-10

DeepSeek发布新注意力架构NSA，提升长上下文建模效率

DeepSeek 发布了一种新的注意力机制 NSA（Native Sparse Attention），旨在提升长上下文建模的效率。NSA 通过分层 token 建模和硬件对齐设计，显著降低了计算成本，同时保持了与全注意力机制相当的性能。实验表明，NSA 在长上下文任务中表现出色，推理速度和训练速度均大幅提升，为大语言模型的长序列处理提供了新解决方案

https://www.jiqizhixin.com/articles/2025-02-18-11

月之暗面发布新注意力架构MoBA，与DeepSeek NSA同日亮相

月之暗面发布了一种名为 MoBA（Mixture of Block Attention）的注意力机制，将混合专家（MoE）原理应用于注意力机制，实现对长序列的高效处理。MoBA 通过动态选择关键块进行计算，降低了计算复杂度，同时保持了与全注意力机制相当的性能。实验表明，MoBA 在处理长上下文任务时表现出色，且训练成本更低，代码已公开并经过实际部署验证