- 博客(567)
- 收藏
- 关注
原创 人工智能学会了看懂动作!复旦大学团队的视频识别新突破
这个系统的工作原理可以用一个生动的比喻来解释:就像一个经验丰富的舞蹈老师,能够通过观看几个学生的示范动作,然后在一群人中准确识别出哪些人在做同样的舞蹈动作,即使这些人的身材、衣着和面貌完全不同。首先是复杂动作的分解问题。现实中的很多动作都是由多个基本动作组合而成的,如何将复杂动作分解为更基本的"元动作",将是一个有趣且重要的研究方向。这些数字背后的意义可以这样理解:如果把视频分割的准确性比作射箭比赛,那么DMA算法就像一个经验丰富的射手,即使在不同的风向和距离条件下,仍然能够保持稳定的高命中率。
2025-08-05 21:15:24
432
原创 用AI慧眼保护非洲野生动物:从传统CNN到视觉变换器技术革命
研究团队不但对比了多种最先进的深度学习模型,包括经典的卷积神经网络DenseNet-201、ResNet-152、EfficientNet-B4,以及最新的视觉变换器ViT-H/14,还将表现最佳的模型部署到了实际可用的网络应用中,让保护工作者能够真正使用这项技术。从更广阔的视角看,这项研究体现了技术发展为人类服务的根本目标。在人工智能技术日新月异的今天,如何让这些先进技术真正服务于人类社会的重大挑战,如何在技术创新中兼顾效率和公平,如何在全球化的技术发展中保持本土化的特色,这些都是值得深入思考的问题。
2025-08-05 21:15:14
418
原创 普度大学团队推出MaPPO:让AI更懂人类偏好的新方法
研究团队发现,现有的训练方法存在一个根本性缺陷,就像一个过分严格的老师,只会简单粗暴地区分"好学生"和"坏学生",却忽略了两者之间的微妙差别。虽然两者之间的差距确实拉大了,但这完全违背了训练的根本目标:我们希望提升高质量回答的概率,而不是降低所有回答的概率。每当系统看到一对回答时,无论它们的质量差距是巨大还是微小,都会采用同样激进的处理方式:大幅提升"获胜"回答的概率,同时大幅降低"失败"回答的概率。答案是否定的,MaPPO在提升偏好对齐的同时,很好地保持了模型在各个方面的能力水平。需要复杂的参数调整吗?
2025-08-05 21:15:05
232
原创 腾讯混元团队:让图像生成模型重新崛起的革命性突破
他们开发的X-Omni系统就像是给人工智能请了一位经验丰富的老师,通过"强化学习"这种特殊的训练方法,让AI不仅能画出精美的图片,还能准确地在图片中写出各种文字,无论是英文还是中文都能处理得游刃有余。这种训练方式的好处是显而易见的。但是,普通的图像分词器往往关注的是像素级别的细节,就像是一个过分关注笔画粗细的书法老师,虽然技术细节很到位,但可能忽略了字的整体美感和含义。X-Omni采用的SigLIP-VQ分词器则不同,它更关注图像的语义信息,就像是一个既懂技法又懂美学的艺术大师,能够抓住图像的精神内核。
2025-08-05 21:14:55
391
原创 腾讯混元团队:HunyuanWorld 1.0实现想象转3D
这就好比基于视频的世界生成方法,虽然能创造出视觉效果丰富多样的内容,但在保持3D一致性方面存在问题,渲染效率也很低。对于在线部署场景,系统采用Draco压缩技术,能够实现90%的压缩率,同时保持视觉质量,并且原生支持WebAssembly,确保在网页浏览器中的兼容性。这里遇到的一个技术难题是,传统的物体检测模型无法直接应用于全景图像,因为全景图像的左右边界是连续的,一个物体可能会被"切断"显示在图像的两端。第二种是3D生成方法,系统会根据物体的2D图像生成完整的3D模型,然后将其放置到合适的位置。
2025-08-05 21:14:29
282
原创 清华大学:AI训练实现CUDA代码120倍优化
更值得注意的是,即使是专门为A100优化的代码,在其他GPU架构上也表现出色,在L40上平均提升3.12倍,在RTX 3090上提升2.50倍,在H100上提升2.39倍,在H20上提升2.37倍。这行代码的工作原理是将形状为(N,)的向量A转换为(N,1)的列向量,然后利用PyTorch的自动广播功能,让这个列向量与(N,M)的矩阵B进行逐元素乘法。它不仅在技术上取得了显著成果,更重要的是展示了一种新的思路:让AI系统通过实际的性能反馈来学习优化策略,而不是依赖预先编程的规则或人类专家的指导。
2025-08-05 21:14:20
314
原创 北京交大与微软亚研:突破性评估多模态AI诚实度
更细致的分析发现,不同类型的问题对AI的"欺骗性"程度不同。他们测试了28个主流的多模态AI模型,包括大家熟知的GPT-4o、最新的o1模型等,结果令人意外:即使是最先进的AI模型,在面对这些无法回答的问题时,大多数都选择了"硬着头皮回答"而不是诚实地承认局限性。最终结果显示,经过精心平衡的训练,AI既能在应该拒绝的时候诚实地说"不知道",也能在应该回答的时候提供有用的信息。结果显示,即使是诚实度最高的模型,在综合表现上也存在明显短板,说明目前的AI距离真正的"又诚实又有用"还有很长的路要走。
2025-08-05 21:14:09
472
原创 上海交大团队首创化学推理AI:像学霸一样分析分子的神奇大脑
首先,研究团队构建了一个包含1010亿个信息单元的超大规模化学知识库,这个知识库的特殊之处在于它不是简单地堆砌各种化学信息,而是深入到了化学知识的最小单位——官能团。当面对一个复杂的化学问题时,它会像经验丰富的化学家一样,先分析分子的结构特征,识别其中的关键官能团,然后基于这些基础信息推导出反应机理,最终得出正确答案。与普通化学AI只能记忆化学事实不同,它能像化学家一样进行深度推理,分析分子结构、识别官能团、推导反应机理,并且能展示完整的思考过程,让人类可以验证和理解它的推理逻辑。
2025-08-05 21:14:00
616
原创 复旦大学推出OmniAVS:让AI看懂、听懂视频中的每个细节
而OISA的方法更像人类的感知过程,它将音频切分成与视频帧对应的片段,然后交替处理视觉和听觉信息,就像"看一帧,听一段,再看一帧,再听一段"这样的节奏。如今,复旦大学的研究团队希望让人工智能也能像人类一样,不仅能"看到"视频画面,"听到"声音,还能理解这些信息的深层含义,并给出合理的解释。"(只是在逗你玩)的说话者,并解释说"老板在逗他的同事"。A:OISA采用了独特的"音视频交错"策略,将音频切分成与视频帧对应的片段,然后交替处理视觉和听觉信息,就像"看一帧、听一段、再看一帧、再听一段"的节奏。
2025-08-05 21:13:51
593
原创 应用AI研究公司获3300万美元融资,专注跨领域智能体开发
Prosus投资合伙人Sandeep Bakshi在邮件中告诉TechCrunch:"我们见过许多早期初创公司,但这里突出的是一个小而高度使命驱动的团队,专注于具有实际用例的数字人类。公司创始人Robert Yang博士是MIT前教师,他表示Fundamental Research Labs希望成为一家"历史性"公司,而不拘泥于传统的初创公司架构。A:公司创始人Yang表示,目前专注于生产力应用以创造价值并建立团队技术,但最终目标是解决物理问题,朝着具身智能方向发展,甚至制造机器人。
2025-08-05 21:13:43
244
原创 “Vibe Coding“正在创造全新AI经济生态
几周后,另一家初创公司Base44登场,其创始人是一位非技术背景的创作者,他使用AI进行"氛围编程",开发了一个无代码开发平台。与此同时,《商业内幕》的阿利斯泰尔·巴尔在最近的一篇文章中强调,"非传统的AI原生开发者"正在将自然语言转化为应用程序,从根本上改变了SaaS经济学。GitHub首席执行官托马斯·多姆克在刚刚结束的巴黎VivaTech大会上呼应了这一警告:"非技术创始人很难在没有开发者的情况下大规模建立初创公司,"他补充说,像氛围编程这样的工具无法提供证明严肃投资合理性所需的深度。
2025-08-05 21:13:33
382
原创 SAP收购AI驱动的招聘平台SmartRecruiters
SmartRecruiters销售的软件有助于自动化大批量招聘,主要在美国运营,而美国恰好是SAP最重要的市场,占其收入的30%以上。在宣布收购的新闻发布会上,SmartRecruiters首席执行官Rebecca Carr表示,这笔交易将使两家公司的客户能够"抓住机遇",她强调人工智能在人才获取领域提供了"非常令人兴奋"的潜力。据SAP表示,此次收购将使SuccessFactors能够进行更快速、数据驱动的招聘,并在一个集成系统内提供更流畅的候选人体验,涵盖人才寻源、面试、入职和劳动力规划。
2025-08-05 21:06:41
178
原创 企业转型陷入困境的原因及突破策略
但由于解决真正的根本原因——决策功能失调、缺乏优先级排序、资源瓶颈、文化阻力——很困难,大多数组织要么忽视这些问题,要么说服自己,认为大胆的转型努力可以在不支持它的系统之上取得成功。需要建立新的运营方式,使战略与执行保持一致,基于价值和能力排优先级,专注于真正推动进展的工作,并衡量有意义的业务结果。如果你希望变革持续,停止将其视为事件,开始构建使所有变革成为可能的引擎,无论你称之为战略性、转型性,还是仅仅维持运营的项目。构建新的操作系统,旨在交付你今天拥有的战略,以及明天繁荣所需的转型。
2025-08-05 21:06:31
592
原创 迈凯伦车队如何用ITSM推动F1赛车成功
基沃斯说整个赛季90%的赛车部件都会更换,这展现了这项运动的持续创新:"如果你考虑我们如何为赛车部署升级,我们设计赛车,然后制造它,然后带到赛道上,我们利用自由练习来测试未来比赛的新部件。"即使在一个不懈前进的企业中,你也无法摆脱良好的优先级排序和良好的秩序,"基沃斯补充说。A:赛道装备是迈凯伦车队运行车库的技术设备,就像一个跟随车队到处走的迷你数据中心,是车库的大脑。基沃斯的职责涉及运营赛车前沿的技术,包括必须部署到各个赛道的所有IT基础设施,以及保持迈凯伦车队业务正常运转的IT系统。
2025-08-05 21:06:21
572
原创 腾讯混元发布3D世界生成框架HunyuanWorld 1.0
研究团队采用了一个创新的"分层3D网格表示"系统,将复杂的3D世界分解为多个语义层次。就像有一个魔法建筑师,你只需要跟他说"我想要一个有城堡的中世纪小镇"或者给他看一张风景照片,他就能立刻为你建造出一个完整的虚拟世界,你不仅可以在其中自由漫步,还能移动里面的物体,甚至将整个世界导出到游戏引擎中使用。为了避免重复生成图片中已有的物体(比如避免在扩展的全景图中出现多个相同的雕像),系统采用了"场景感知提示策略",先识别原图中的显著物体,将其设为负面提示,然后生成与原图风格一致但内容互补的周边环境。
2025-08-05 16:04:38
396
原创 企业忽视AI安全防护,攻击者已开始利用漏洞
这并非首次将安全和治理问题作为企业AI部署的关注点。这些发现来自IBM发布的《2025年数据泄露成本报告》,报告显示,虽然AI相关安全事件目前只占总数的一小部分,但随着企业系统中AI应用的增加,这一比例预计将会增长。基于2024年3月至2025年2月期间全球600家企业的数据,IBM表示其中13%的企业报告了涉及AI模型或AI应用的安全事件,并导致了违规行为。约三分之一遭受AI安全事件的企业出现了运营中断,犯罪分子获得了对敏感数据的未授权访问,23%的企业表示因攻击遭受了经济损失,17%的企业声誉受损。
2025-08-02 00:04:49
290
原创 DeepSeek凭借稀疏注意力机制,荣获最佳论文奖!
这些结果验证了原生稀疏注意力的两个关键优势:预训练的稀疏注意力模式能够高效捕获对复杂数学推导至关重要的长距离逻辑依赖关系,以及硬件对齐的架构设计在不发生灾难性遗忘的情况下维持了足够的上下文密度来支持不断增长的推理深度。通过设置较小的滑动步长,系统能够避免信息碎片化,保持语义的连续性。基于Triton的NSA实现与Triton版本的FlashAttention-2进行公平的速度比较,结果显示NSA随着上下文长度的增加获得了逐渐更大的加速比,在64k上下文长度下实现了9.0倍的前向加速和6.0倍的后向加速。
2025-08-02 00:04:41
620
原创 ServiceNow瞄准“数据地狱“,布局商业智能领域
"Gartner有一个令人清醒的统计数据显示,到2026年,60%的AI项目可能因为数据未做好AI准备而失败,"ServiceNow数据分析产品高级副总裁兼总经理Gaurav Rewari表示。"ServiceNow采取了非常严格的有机开发方法,当我们进行收购等无机行动时,我们会重新平台化,保持单一平台和数据模型的纯粹性和统一性,"他说。ServiceNow正在构建数据基础设施以支持人工智能智能体的使用,解决其高管所称的"数据地狱"问题,这是企业AI成功采用的最大障碍。Q2:RaptorDB是什么?
2025-08-02 00:04:15
499
原创 这11种情况下千万别用ChatGPT
如果你或你爱的人处于危机中,请在美国拨打988,或你当地的热线电话。自从OpenAI在2024年底推出ChatGPT搜索(并在2025年2月向所有人开放)以来,聊天机器人可以在你询问的那一刻获取最新网页、股票报价、汽油价格、体育比分和其他实时数据,并配有可点击的引用,这样你就可以验证来源。虽然我是ChatGPT的粉丝,但我也了解它的局限性,你也应该了解,无论你是新手还是专家。在高中时,我用我的第一代iPod Touch偷看了一些我在AP微积分中难以记住的繁琐方程式,这是我并不特别自豪的事情。
2025-08-02 00:04:01
640
原创 Google DeepMind发布高精度地球AI模型
这一新模型作为Google Earth AI倡议的一部分推出,该倡议是一系列地理空间AI模型和数据集的集合,旨在为研究人员、企业和组织提供帮助,以解决当今世界面临的现实问题。"这使得该模型能够为科学家提供更完整、更一致的地球演化图景,帮助他们在粮食安全、森林砍伐、城市扩张和水资源等关键问题上做出更明智的决策,"AlphaEarth团队表示。Google将这一新AI模型描述为类似"虚拟卫星"的功能,能够准确高效地将整个地球的陆地和沿海水域映射成数字表示形式(称为嵌入),供机器学习和AI算法处理。
2025-08-02 00:03:52
868
原创 阿联酋AI大学:30M参数实现大模型语音交互
这个系统的工作流程就像一个真正的人类助手:它可以通过Whisper-Small接收语音输入,通过视觉模型理解图像内容,然后通过大语言模型进行推理,最后通过LLMVoX生成自然的语音回复。整个过程是自回归的,也就是说,每个新的语音片段都会基于前面已经生成的内容,确保语音的连贯性和自然度。这个系统最令人惊叹的特点是它的"轻量化"设计。实验结果显示,阿拉伯语版本的LLMVoX实现了约8.2%的字符错误率(CER),这个表现超过了大多数非流式的阿拉伯语语音合成方法,仅次于用于生成训练数据的XTTS系统。
2025-08-02 00:03:40
763
原创 施耐德电气:30年OT经验打造AI楼宇运维专家
此外,其决策建议的可视化能力也显著减少了人为误判的可能性,让相关风险下降。不同于常见的通用AI工具,EcoStruxure™ Building GPT的功能不仅仅是简单的对话,而是面向楼宇暖通系统的能效提升与运维变革,融合了知识图谱与大语言模型的行业专用智能体,具备“感知、理解、诊断、决策与优化”的闭环能力。EcoStruxure™ Building GPT将机器侧复杂的、非人性的数据语言,翻译为一线人员能理解、能执行的决策指令,从而将AI从“聪明的玩具”转变为直击“人效”与“能效”两大痛点的生产力工具。
2025-08-02 00:03:34
738
原创 康奈尔团队:“块扩散“模型提升AI语言生成质量
现在,康奈尔科技学院的研究团队找到了一种巧妙的折中方案——他们开发了一种叫做"块扩散"的新方法,让AI既能保持写作的准确性,又能提高生成速度,还能写出任意长度的文章。在LM1B数据集上,最好的块扩散模型(块大小为4)达到了28.23的困惑度,相比之前最好的扩散模型MDLM的31.78,这是一个13%的显著提升。研究团队巧妙地将原本复杂的整体优化问题分解为多个相对简单的局部优化问题,每个块都有自己的"小目标",而所有小目标的达成自然就实现了整体的"大目标"。传统的扩散语言模型就像是只会画固定尺寸画作的画家。
2025-08-02 00:03:27
435
原创 AIRI研究院:让AI看图更高效,一半图像特征就够用了
第二种是使用他们开发的智能选择器挑选出的特征,这是新方法的表现。更有趣的是,在一些通用任务中,即使只保留30%的视觉特征,AI的表现仍然可以媲美使用完整信息时的水平。在ChartQA(图表问答)任务中,当只保留40%的特征时,智能选择器帮助AI达到了接近使用完整特征时的表现水平,而随机选择的特征只能让AI的正确率下降到原来的70%左右。更有趣的是,即使是随机选择30%的特征,AI的表现也能达到使用完整特征时的90%以上,这说明在这些任务中,视觉信息的分布相对较为均匀,没有特别集中的关键区域。
2025-08-02 00:03:17
521
原创 新加坡国立大学突破:让AI像看电影一样记住长视频的每个细节
对于远期的帧,则使用较大的切块,只保留主要信息。当前最先进的AI视频生成模型,比如Wan和Cosmos,虽然能够生成令人惊叹的短视频片段,但就像患了严重健忘症的人一样,只能记住大约5秒钟的内容。这意味着如果你想让AI生成一个长视频,比如一个角色在房间里走来走去,AI很可能在几秒钟后就完全忘记了房间最初的布局,导致生成的视频中家具位置不断变化,墙壁颜色时而变化,完全违背了物理世界的基本规律。而距离较远的帧虽然包含重要的环境信息,比如房间的布局、天气的状况等,但这些信息相对稳定,不需要保留过多的细节。
2025-08-02 00:03:10
787
原创 Rice大学研究团队揭秘如何让聊天机器人言简意赅
随着OpenAI的o1和DeepSeek-R1等推理模型的出现,AI在数学和编程方面的能力大幅提升,但同时也出现了一个让人头疼的问题:这些AI变得过于"深思熟虑",经常为简单问题生成冗长的推理过程。有些研究还采用了"渐进式训练",开始时允许AI进行较长的推理,然后逐步缩短允许的推理长度,就像逐渐提高考试时间限制一样,迫使AI提高推理效率。这种过度思考带来的问题是实实在在的。而新的训练方法会根据推理长度给出不同的奖励:答案正确且推理简洁的获得最高奖励,答案正确但推理冗长的获得较低奖励,答案错误的则受到惩罚。
2025-08-02 00:02:57
758
原创 斯坦福团队:AdaptiVocab优化大模型语言效率
比如,如果已经选择了"special relativity"(狭义相对论)作为一个整体token,那在评估"special"或"relativity"等部分词汇时,就会相应调整它们的价值分数,避免重复计算节省效果。研究团队举了一个很直观的例子:在物理学历史领域的一段文字中,传统的Mistral分词器需要用60个token来表示,而经过AdaptiVocab优化后,同样的内容只需要39个token就能表达——节省了35%的处理量。更有意思的是,这种词汇级别的优化为我们理解语言模型的工作机制提供了新的视角。
2025-08-02 00:02:41
637
原创 北大与腾讯联手:让机器像人类团队一样协作思考
这项由北京大学计算机科学学院的骆俊宇、张明等研究者,联合腾讳优图实验室、南洋理工大学、芝加哥大学等多家顶尖机构共同完成的大规模综述研究,发表于2025年3月的预印本论文平台arXiv。感兴趣的读者可以通过arXiv:2503.21460v1获取完整论文。这项研究首次系统性地梳理了大语言模型智能体这一前沿领域的完整技术图谱,为理解AI智能体的未来发展提供了重要指南。在人工智能飞速发展的今天,我们正见证着一个前所未有的变革时期。就像科幻电影中那些能够独立思考、相互协作的智能机器人一样,基于大语言模型的AI智能体
2025-08-02 00:02:27
596
原创 计算机也能看图说话了?上海AI实验室发布视觉推理新突破
更重要的是,新方法还超过了一些专门为定位任务设计的模型,比如GroundedSAM,这说明通用的强化学习方法在某些方面甚至比专门化的方法更有效。研究团队发现,当给计算机提供的训练样本很少时(比如只有几十到几千个样本),这种"边做边学"的方法比传统的"死记硬背"效果好得多。即使在这种挑战性的设置下,新方法仍然取得了显著的改进,4样本设置下的平均精度提升了41.2分。想象一下,如果有一天你的手机能像人类一样"看懂"图片,不仅能识别图片中的内容,还能像侦探一样进行推理和分析,这会是什么样的体验?
2025-08-02 00:02:20
724
原创 中大团队:AI突破视频时间关系理解
结果显示,使用T-GRPO训练的Video-R1在需要时序推理的问题上,有75%的回答都体现了对时间信息的利用,而没有使用这种训练方法的模型只有60.2%。就像一个偷懒的学生在考试时只看题目的关键词就匆忙作答,而不仔细理解整道题的逻辑一样,这些模型往往只关注视频中的某一帧画面,就匆忙给出答案,完全忽略了时间序列中蕴含的重要信息。当你观看一段视频时,你的大脑不仅能识别画面中的物体,还能理解故事的前因后果,推断角色的动机,甚至预测接下来可能发生什么。通过对训练过程的分析,研究团队发现了一些有趣的现象。
2025-08-02 00:02:10
566
原创 扎克伯格阐述Meta通用人工智能愿景
在冗长的评论中,他讨论了技术的历史趋势如何颠覆工作,并"稳步解放了大部分人类,让他们减少对生存的关注,更多地追求自己选择的事业。"深入了解我们、理解我们目标并能帮助我们实现目标的个人超级智能将是迄今为止最有用的,"他说。"像眼镜这样的个人设备,因为能看到我们所看到的、听到我们所听到的,并在一天中与我们互动而理解我们的情境,将成为我们的主要计算设备。尽管扎克伯格将把超级智能保持在专有包装下,但他总结说,他相信这个十年的剩余时间将是"决定这项技术将走向何方的决定性时期。"目前改进缓慢,但不可否认,"他写道。
2025-08-01 00:08:30
366
原创 警惕企业软件供应商的AI策略
相反,IT领导者应制定策略,定义主要的"主机"平台,同时维护Forrester所称的"强大的集成架构",例如使用集成平台即服务(iPaaS)和应用程序编程接口(API)来连接最佳的"租户"解决方案。"为数据治理的基础工作提供资金,但要以给你架构控制权的方式进行,并允许你联合来自多个来源的数据,而不被单一平台的数据策略绑架,"Forrester说。Forrester的分析指出,企业IT软件公司正将嵌入式AI副驾驶、助手和自主智能体定位为新的主要界面,分析师将其描述为应用程序的操作系统。
2025-08-01 00:08:22
205
原创 ChatGPT全新AI学习模式拒绝直接给答案
当用户向ChatGPT提出问题时,系统不会立即给出标准答案,而是会反问相关问题,提供思考方向,或者分解复杂问题为更小的组成部分。这种方法模仿了优秀教师的教学方式,鼓励学生通过自己的思考过程来达到理解。它不仅展示了大语言模型在理解和引导学习过程方面的先进能力,也为AI辅助教学开辟了新的可能性。与以往直接提供答案的模式不同,新的学习模式采用引导式教学方法,通过提问、提示和逐步引导来帮助用户自主思考和学习。通过这种互动方式,用户不仅能够获得问题的答案,更重要的是能够掌握解决类似问题的思维方法和技能。
2025-08-01 00:08:15
134
原创 谷歌确认将签署欧盟AI实践准则
所有在欧洲运营的AI公司都必须遵守AI法案,该法案包含世界上针对生成式AI系统最详细的监管框架。在一个罕见的举动中,谷歌确认将签署欧盟的AI实践准则,这是一个该公司最初因过于严苛而反对的框架。虽然谷歌最初反对实践准则,但沃克表示,公司向欧盟委员会提供的意见得到了良好回应,最终形成的法律框架能为欧洲提供"安全、一流的AI工具"。同样,它包括使公司模型开发与欧盟版权法在AI方面保持一致的路径,这是谷歌等公司的痛点。欧盟委员会表示,采用自愿准则的公司将享受较低的官僚负担,更容易遵守去年生效的欧盟AI法案。
2025-08-01 00:08:05
297
原创 扎克伯格用“超级智能“概念为AI巨额投资辩护
你可能还记得,在发布前,扎克伯格预测2025年Meta AI将"服务超过10亿人",Llama 4将成为"领先的最先进模型"。"在过去几个月里,我们开始看到AI系统自我改进的迹象,"他在周三的博客文章中写道。无论超级智能究竟是什么,Meta不仅计划构建它,更希望为每个人提供个人专属的超级智能来丰富生活——毕竟,当你可以和你的伙伴Llama对话时,谁还需要朋友呢。不幸的是,对Meta来说,这些模型中的前两个——代号Scout和Maverick——反响平平,更糟糕的是还被指控在基准测试中偷换概念。
2025-08-01 00:07:56
205
原创 GitHub Copilot历史用户数突破2000万大关
纳德拉在周三的财报电话会议上表示,GitHub在AI编程智能体方面看到了巨大的发展势头。微软旗下的GitHub推出的AI编程工具GitHub Copilot现已达到超过2000万用户,微软CEO萨蒂亚·纳德拉在周三的公司财报电话会议上宣布了这一消息。凭借微软庞大的企业客户名单和GitHub的开发者生态系统,GitHub Copilot在企业AI编程工具市场中占据有利地位。微软还报告称,作为目前最受欢迎的AI编程工具之一的GitHub Copilot被财富100强中90%的公司使用。
2025-08-01 00:07:49
314
原创 Salesforce AI CRM成为企业增长的“第二大脑”
通义实验室产品解决方案架构师徐哲赢谈到,阿里云上的Salesforce AI CRM继承Salesforce全球统一的安全策略,同时深度融合中国本地的法律法规,实现了数据合规的本地化保障。Salesforce将全球市场验证成熟的方法论和产品引入中国,例如已在全球服务数万家企业、沉淀大量实践经验的Prompt Builder,在本地部署时,企业可直接复用全球团队已有的优质AI Actions与Prompt,实现“拿来即用”,无需重复开发,大幅提升部署效率。”Salesforce中国产品负责人张欣桐说道。
2025-08-01 00:07:41
478
原创 微软第四季度财报超预期 云计算和AI业务成增长引擎
他表示,在截至6月30日的财年中,Azure营收超过750亿美元,同比增长34%,这得益于"所有工作负载的增长",包括AI工作负载。总体而言,这家IT巨头第四季度营收达764亿美元,同比增长18%,营业收入343亿美元,增长23%,净收入272亿美元,增长24%。A:微软首次披露Azure营收数据,在截至6月30日的财年中,Azure营收超过750亿美元,同比增长34%。整个财年,微软营收达2817亿美元,增长15%,营业收入1285亿美元,增长17%,净收入1018亿美元,增长16%。
2025-08-01 00:07:28
286
原创 香港大学团队让机器具备人类式创作推理能力
比如,如果生成的图像中有"一个灰色背包(194,80到763,925)和一个绿色苹果(633,684到836,928)",用户可以直接将描述中的"绿色"改为"红色",并调整苹果的位置坐标到(133,684到336,928),AI会立即生成更新后的图像。比如面对"将巨大的叶子替换为雨伞"这样的编辑要求,GoT会生成结构化的编辑计划:"源图像显示了一个场景,被编辑的物体是巨大的叶子,区域位于(204,0到916,258),编辑后的图像将显示一个人举着深蓝色雨伞"。这个思考过程不是抽象的,而是具体的、可见的。
2025-08-01 00:07:02
723
原创 上海AI实验室:φ-Decoding让AI推理更“深思熟虑“
跨任务的robustness(鲁棒性)同样值得关注。这种双分布的设计philosophy(设计哲学)体现了一个重要的insight(洞察):好的决策不仅要locally optimal(局部最优),还要globally consistent(全局一致)。它不仅在research benchmarks(研究基准)上表现出色,更重要的是具备了real-world deployment(真实世界部署)所需的versatility(多功能性)、efficiency(效率)和reliability(可靠性)。
2025-08-01 00:06:53
873
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人