自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(162)
  • 收藏
  • 关注

原创 MOE Yuan2.0 预训练 Yuan2.0-M32/examples/pretrain_yuan2.0_moe_2x32B.sh

这个脚本配置并运行了一个名为 "Yuan-2.1B" 的大规模预训练模型,涉及多个 GPU 和可能的多节点分布式训练。可以通过 ' 标志激活基于局部过滤的注意力 (LFA)本文档提供了Yuan2.0-M32预训练模型的说明。标志可以控制简单而高效的三维模型并行方法。在运行脚本之前,应正确设置相关参数。首先,进行任何所需的修改,包括设置、将标志设置为,则每个管道阶段的。逐行解释 "Yuan-2.1B。命令执行分布式训练脚本。控制训练期间内存的使用。Yuan2.0 预训练。变压器层数应由指定。

2024-07-10 21:05:54 829

原创 ICLR 2025 杰出论文 | 模型编辑:必要性、短板与破局法

模型编辑是一个高效更新大模型内部所存储知识(如错误、过时和不安全知识)的技术。与微调相比,它的主要优势有两个:1.可以定向更新任意数量的知识(可少至几条),而不用担心过拟合、灾难性遗忘等问题。2.几乎是无需训练(Training Free)的,实时性强。一个很直观的问题是,在这个微调技术茁壮成长、层出不穷的时代,为什么我们需要模型编辑?上述俩个优势,到底会给它带来怎样的应用空间呢?叶问外传》中有一句非常破圈的话,叫:“七步之外,枪快;七步之内,拳快。

2025-04-28 16:43:34 465

原创 小游戏出海谷歌之广告变现

BIGO Ads,Chartboost,DT Exchange,Google Bidding,InMobi,IronSource,Liftoff Monetize,Meta,Mintegral,MobileFuse,Moloco,Ogury,PubMatic,Pangle,Smaato,Unity,Verve Group,VK Ad Network,Yandex,YSO Network等。老美有各种税表,1040、1099、W-2/4/9/8BEN等等,太复杂,我们不需要深究,只关注W-8BEN即可。

2025-04-28 15:51:38 698

原创 打包PyQt程序——从PyInstaller到Nuitka、auto-py-to-exe

同时,还将通过一个不带选项的命令行操作和一个带选项的命令行操作的实例,展示如何使用Nuitka来打包你的PyQt程序。auto-py-to-exe更像是PyInstaller的图形界面软件。本部分将介绍auto-py-to-exe的安装过程,并通过一个具体的操作实例,演示如何使用这个工具来打包你的PyQt程序。本部分将详细介绍PyInstaller的安装步骤,并通过不带选项的命令行操作、带选项的命令行操作以及压缩打包后的程序大小等实操案例,带你一步步掌握PyInstaller的使用技巧。

2025-04-28 15:49:26 180

原创 收藏!人形机器人产业链深度梳理

导语:人形机器人产业链涉及的四大环节:感知、交互、运控、导航。2025年04月22日 18:53。点击下方小程序查看详情。

2025-04-28 15:46:36 140

原创 为什么小红书成了新百度,而知乎没有?

平台的核心价值,其实不一定是内容的专业度,而是。

2025-04-28 15:43:34 508

原创 用 AI 做一个微信小程序小程序用的是 Taro + React 开发

这是一个用AI开发小程序的全过程的记录,小程序的界面样式、95%的前端代码、95%的后端代码(剩下的5%是我手动修改了一些些,但约等于全都是用AI实现了😂)都是由AI生成的,不得不说 AI 发展的实在太快了。早些时候关注我的小伙伴可能还记得之前尝试做过一个 AI 测运势的小程序,当时是用 Midjourney 生成了一些小程序上用到的配图,用 ChatGPT 生成了一些文案,界面设计、小程序前端、后端都是自己写的。

2025-04-28 15:41:18 903

原创 Ray Flow Insight:让分布式系统调试不再“黑盒“RayData、RayTrain、RayServe、OpenRLHF、veRL

我们在ant-ray的。

2025-04-28 15:35:26 894

原创 4大类AI Agent协议框架全面综述

提出了一个二维分类框架,将协议分为上下文导向型(Context-Oriented Protocols)和代理间通信型(Inter-Agent Protocols),并进一步细分为通用型(General-Purpose)和特定领域型(Domain-Specific)。:由Anthropic提出,是一个通用的上下文获取协议,允许AI代理通过标准化的方式与外部资源(如数据、工具和服务)进行交互。义:代理协议是标准化框架,定义了代理之间以及代理与外部系统之间结构化通信的规则、格式和程序。与传统交互机制(如API。

2025-04-28 15:18:58 939

原创 Kimi-Audio:引领音频大模型的全新时代

Kimi-Audio不仅开源代码和模型参数,还提供了完整的评测工具包,标志着音频AI领域迈入了一个新的时代。月之暗面(Moonshot AI)杨植麟团队领导研发的Kimi-Audio模型横空出世,这款被称为"语音世界大一统"的音频大模型。OpenCSG社区:https://opencsg.com/models/AIWizards/Kimi-Audio-7B。既能理解"说了什么"(语义内容),又能保留"怎么说"(音色、情感等细节)模型不同,Kimi-Audio能够"听"、"说"、"理解"和"对话。

2025-04-28 15:15:13 645

原创 简单 Kimi-Audio技术报告

Kimi-Audio 的出现标志着音频处理技术的一个重要突破。它通过创新的模型架构、大规模的数据处理和多任务预训练策略,实现了音频理解、生成和对话的通用化和高效化。随着开源策略的推进,Kimi-Audio 有望激发更多的研究和创新,推动音频处理技术迈向新的高度。对于音频处理领域的研究人员和开发者来说,Kimi-Audio 不仅是一个强大的工具,更是一个充满潜力的研究平台,值得我们深入探索和利用。

2025-04-28 15:13:50 875

原创 华裔学者Nature发文:多模态AI大模型将开启生物学分析新时代

然而,在推广应用 MFM 的过程中,仍然存在技术和监管方面的挑战和限制。研究团队表示,通过迁移学习,MFM 可以应用于多种下游任务,例如新型细胞类型识别、生物标志物发现、基因调控推断和虚拟扰动等,有望开启 AI 赋能的生物学分析新时代,揭示分子细胞生物学的复杂机制,支持实验设计,并扩展我们对生命科学的理解。在预测基因功能和调控方面,MFM 能够学习多组学数据中的统一模式,从而预测基因功能,并重建特定环境下的基因调控网络,例如结合转录组和染色质可及性数据,揭示重要的调控因子。模型应能接受不确定的输出结果。

2025-04-28 15:00:27 800

原创 超越Transformers!谷歌发布「深度学习架构设计」通用框架Miras|今日热门论文

他们进一步开发了多 agent 框架 LearnAct,其能够自动从演示中提取知识,从而提高任务完成度,集成了三个专业 agent:用于知识提取的 DemoParser、用于相关知识检索的 KnowSeeker 和用于演示增强任务执行的 ActExecutor。实验结果表明,在离线和在线评估中,模型性能都有显著提高。通过实证分析,来自香港科技大学和蚂蚁集团的研究团队揭示了 LRM 行为的一个重要特征,即在思考 token 之间插入由较小模型生成的外部思维链(CoT),可以有效地操纵模型产生更少的思维。

2025-04-28 14:59:41 490

原创 诺奖得主、AlphaGo之父《时代》专访:AI远不如人类科学家,根本提不出有价值的猜想

学术头条 学术头条 2025年04月28日 12:14 北京原文作者:Billy Perrigo,《时代》周刊驻伦敦分社记者,主要报道科技行业,关注那些以奇特和意想不到的方式重塑我们世界的公司。原文链接:https://time.com/7280740/demis-hassabis-interview/【编者按】去年 10 月,DeepMind 联合创始人 Demis Hassabis 因开发 AlphaFold 以解决蛋白质复杂结构预测问题,而获得了诺贝尔化学奖;2016 年,他和他的团队开发的 Al

2025-04-28 14:57:21 988

原创 github个人页面锐评报告gitbox.hust

GitHub 锐评生成器

2025-04-28 14:18:31 100

原创 Google首席科学家万字演讲回顾AI十年:哪些关键技术决定了今天的大模型格局?Jeff Dean

智猩猩 2025年04月28日 11:52 北京智猩猩精选第63篇,转自公众号:数字开物。本文只做学术/技术分享,如有侵权,联系删文。Google 首席科学家Jeff Dean 今年4 月于在苏黎世联邦理工学院发表关于人工智能重要趋势的演讲,本次演讲回顾了奠定现代AI基础的一系列关键技术里程碑,包括神经网络与反向传播、早期大规模训练、硬件加速、开源生态、架构革命、训练范式、模型效率、推理优化等。算力、数据量、模型规模扩展以及算法和模型架构创新对AI能力提升的关键作用。以下是本次演讲实录经数字开物团队编译整理

2025-04-28 13:43:33 891

原创 别让 AI 成为技术债制造机!Cursor 设计总监 Ryo Lu 的 12 条防坑指南与工程化实践

在 Cursor 中,通过@明确指定文件,目录,代码片段,文档,项目代码库,互联网为上下文,精确地将 AI 的注意力引导至当前任务相关的代码部分,并明确排除不相关部分。给予它清晰的路线图,必要的工具和信息,及时的纠偏和指导,它就能爆发出惊人的能量,成为你手中无往不利的开发利器。为大型项目的首次索引预留足够时间(例如,在非工作时间进行)。反之,如果缺乏这种结构化的引导和必要的控制,过于迷信 AI 的自主能力,盲目地将任务“外包”给它,那么等待你的,很可能就是那一盘难以下咽、越理越乱的“AI 意大利面”。

2025-04-24 14:45:16 1137

原创 AI编程赛道火热,为什么国资选中北大aiXcoder?|甲子光年

另外,我们也发现这些针对于C端提供的编程助手,在引入Agent以后,对整体的项目改动是没有严格边界的,有的时候会改动程序员不希望修改的很多文件,导致程序员并不知道自己的哪些项目被修改过。,同时需要紧贴着企业的软件开发框架,将企业内部那些稳定的、大量的业务逻辑和高频代码场景,利用AI的方式找出来并提取为Prompt体系,然后在用户输入的应用节点,以背景信息的形式、灵活的以智能化的方式提供给大模型,从而显著提升模型的业务理解力和输出准确率,这种方式确保了模型输出更贴合企业和用户实际需求。

2025-04-24 14:36:40 797

原创 V0更新:AI驱动的全栈Web开发工具,击败了Bolt 、Cursor、Windsurf 吗?

免费计划的v0 用户现在最多可以创建 3 个项目。项目允许你设置自定义指令并将你自己的源代码引入v0.1 版本。,时长00:53这一条挺不错的,至少你可以和Cursor更好联动。你现在可以选择 UI 生成的特定部分进行更改。,时长00:19多文件联合修改(以前是不支持的)v0 现在也可以通过自定义子域部署到 Vercel。,时长00:24v0 可以连接到数据库、API和其他外部服务。,时长01:00可以从已发布的块创建PWA。这些可以安装到主屏幕。

2025-04-16 17:51:48 866

原创 当初吹上天的 Devin,现 $20/月对标 Cursor?多 Agent 并行,曾让程序员“失业”的它来了!

Steven Hao (看起来是官方大佬) 回答说,Devin 的核心目的是“通过委派来给你加杠杆”(leverage via delegation)。有意思的是,里面有个 “POP QUIZ” 部分,可能会被利用来当越狱的后门,因为据称这个指令的优先级最高,能覆盖之前的指令。比如里面定义了 Devin 是个“代码高手”(code-wiz),用的是真实的操作系统,任务就是用好各种工具帮用户完成任务。都以为 Devin 要抢走所有人的饭碗。当然,也有人看着 Devin 2.0 的发布,想起了当初的“盛况”。

2025-04-16 17:06:13 339

原创 中国AI可灵2.0炸裂上线,好莱坞慌了

在插入新弹匣的瞬间,一发流弹几乎擦着TA的头飞过,迫使TA猛地一缩头 (6-7s)。的森林小径渐行渐远,她长发飘逸,乌黑顺直,浅色肌肤在自然光线下更显细腻。中景,跟随女子背影的视角,展现她融入。输入提示词“老虎怒吼后猛然冲向镜头,张口扑咬,巨大的身体掀翻树木,镜头剧烈晃动,模拟第一人称逃跑视角,穿越丛林,狂奔躲避追击,树枝划过镜头,恐惧与速度并存”看电影时,你忘了他是影帝,你沉浸到剧情里,忘了他是谁,只记得他演绎的角色。这次2.0版本一上线,可灵更是超越了自己,直接把AI视频的效果提升到了一个全新的层次。

2025-04-16 16:41:55 686

原创 一文搞懂风靡硅谷的 Vibe Coding,跟上 AI 编程的新范式

2025年2月,前OpenAI和特斯拉AI团队领导者Andrej Karpathy在社交平台X上发布了一条引发广泛讨论的帖子,提出了"Vibe Coding"(感觉式编程)的概念。这一概念描述了开发者"完全沉浸在感觉中",依靠大语言模型(LLM)生成代码而无需理解输出的开发方式。短短两个月内,Vibe Coding迅速成为科技圈热门话题,甚至被美国韦氏词典收录为"俚语和流行词"。简单来说,Vibe Coding是一种让AI为你编写代码的方法,你只需用自然语言描述你想要什么,而不必关心代码实现细节。

2025-04-04 22:06:22 970

原创 加速通用人形机器人的开发:NVIDIA Isaac GR00T N1

由于需要大量特定于任务的数据、高昂的计算成本,且模型的泛化能力有限,针对每一个新的任务和环境,从零开始训练这些模型是一个非常繁琐的过程。通过结合这些多样化的数据并使用诸如潜在动作训练等技术,机器人可以从大规模、未标记的人类视频数据中学习而无需监督,从而形成一种强大的策略,增强机器人训练,提高 GR00T N1 的性能和适应性。与扩散策略基线相比,Isaac GR00T N1 模型展示了更平滑和流畅的运动,以及在抓取精度上的显著提高,特别是在使用较小的后训练数据集进行微调时。

2025-04-04 22:05:11 805

原创 swift GRPOTrainer类 源码解析

如何处理 DeepSpeed Stage 3 参数收集。如何自定义训练回调以优化内存和数据加载。如何定义训练过程中的输入输出缓存结构。它是构建一个高效、可扩展的大模型训练框架的重要组件。*_args,**kwargs):else:else:= 'no':else:else:o-LatestPoe这段代码定义了类,是 Swift 框架下用于强化学习人类反馈(RLHF)的大模型训练器,集成了多个模块(如 vLLM、LMDeploy、DeepSpeed等)。

2025-04-04 22:03:07 658

原创 ​多模态GRPO完整实验流程​ swift

本任务从数据集出发,模型的目标是输出图像中包含的物体数量,因此,我们定义数据集如下:classsubsets=[),],这里重新定义的目的是修改query。数据集示例样本如下,包含messages,images和solution字段,solution会送入后续的奖励函数中,而messages和images则会作为模型输入。将会在中被移除,可以忽略。'solution'字段将会透传入ORM中。在自定义数据集时,'images'字段组织成即可。。

2025-04-04 21:56:58 1304

原创 GRPO完整实验流程 swift

的任务目标是根据给定的几个数字和加减乘除四种运算,得到目标数字,因此,我们定义数据集如下:"""通过template, 使用 numbers 和 target完成任务定义,并给到 query 字段供模型采样使用。同时,我们需要保留 nums 和 target两个字段,用于后续的奖励函数计算。本任务使用的奖励函数有两个,一个是 Deepseek-R1 中提到的格式奖励函数,另一是 Coundown Game 的准确性奖励函数。前者已经在swift中内置,通过。

2025-04-04 21:44:17 1207

原创 FlashTokenizer: 基于C++的高性能分词引擎,速度可以提升8-15倍

FlashTokenizer是一款面向高性能计算的CPU分词引擎,专门针对BERT等Transformer架构的大型语言模型进行了底层优化。该引擎基于高效C++实现,采用了多项性能优化技术,确保在维持词元切分准确性的同时,大幅提升处理速度。通过与业界广泛应用的等标准分词器的对比测试,FlashTokenizer在相同硬件环境下实现了8-15倍的性能提升。这一显著的速度优势使模型推理过程中的文本预处理时间得到大幅缩减,从而提高了端到端应用的响应效率。

2025-04-04 21:40:19 998

原创 大语言模型的起点「基础模型」

基础模型的特点类似于「背诵课文」,它擅长记忆和补全已有内容,可以准确的记住下一个参数是什么,而当你的问题超过它所记忆的知识截止日期,它就会胡说八道。例如,在英语文本中,「Hello」后面往往跟着「World」,因此模型可以学习这种规律,将高频短语映射为单个 Token,以减少存储和计算成本。」,但可能会得到不同的答案,这是因为模型在推理过程中仍然存在一定的随机性和未微调的状态。上面的图片,从左到右,从上到下,这些文本人类可以识别,但计算机不能,计算机无法直接理解自然语言,因此必须将文本转换成数值。

2025-04-04 20:40:49 783

原创 通过 Markdown 改进 RAG 文档处理通过 Markdown 改进 RAG 文档处理作者:Tableau原文地址:https://zhuanlan.zhihu.com/p/291397

2025年04月03日 08:01广东。

2025-04-04 20:38:18 832

原创 不止朱啸虎,具身智能投资人心里也打鼓

好几个早期投机器人的基金今年都打算退,在2022、2023年出手的项目,现在普遍回报都有5-10倍,明年的逻辑就是落地PMF,妖魔鬼怪要现形,不好堆估值了。2022年10月1日,大洋彼岸的特斯拉发布首款人形机器人“擎天柱”,如同蝴蝶扇起一阵飓风,吹起了中国具身智能的创业浪潮——隔年,两家独角兽企业智元机器人和银河通用先后成立。这也导致一个特殊的现象——“具身智能项目第一轮是通常朋友圈或者最活跃的美元基金,接着就是相关的产业方与CVC,又因为看不到其他增量资金来源,国资的入局比原来更迅速。

2025-04-04 20:35:32 877

原创 里程碑,GPT-4.5大模型正式通过图灵测试!

每个点代表一个单独的游戏。:GPT-4.5-PERSONA 的胜率为 73%,LLAMA-PERSONA 为 56%,而 GPT-4.5-NO-PERSONA 和 LLAMA-NO-PERSONA 的胜率分别为 36% 和 38%。审讯者所采用策略的分类,左侧显示各类策略在游戏中的占比,右侧显示使用这些策略的游戏的平均准确率,并附有95%置信区间。然而,在 GPT-4.5-PERSONA 和 LLAMA-PERSONA 的游戏中,裁判的准确率并不显著高于随机水平,表明他们无法可靠地区分人类和这些模型。

2025-04-04 20:33:52 927

原创 彻底搞懂一个算法,Prophet!!

原创 程序员小寒 程序员学长 2025年04月02日 23:35 北京大家好,我是小寒今天给大家分享一个超强的算法模型,ProphetProphet 算法是由 Facebook 开发的一种时间序列预测算法,特别适用于处理具有强季节性、节假日效应和趋势变化的时间序列数据。该模型的设计目标是简化时间序列预测任务,使得用户无需对数据做过多的预处理,且具有良好的可解释性。Prophet 是一种基于加法模型的时间序列预测算法,它通过分解时间序列为不同的组成部分来进行建模。具体来说,Prophet 假设时间序列 可以

2025-04-04 20:32:41 1061

原创 llm.c项目 github

我还认为这样做具有教育目的,可以建立专家上限和测量单位,例如,您可以说您手动编写的内核是 cuBLAS 速度的 80%,等等。如果有一个 PR 可以将性能提高 2%,但它“花费” 500 行复杂的 C 代码,甚至可能是一个奇特的第三方依赖项,我可能会拒绝该 PR,因为复杂性不值得。举一个具体的例子 - 将 cuBLAS 作为根训练循环中的 matmuls 默认值是明智之举:它使主线代码更快,它是一行可解释的代码,并且它是一种非常常见的依赖项。这是了解如何在 C 中实现这些层的一个很好的起点。

2025-04-04 20:30:28 566

原创 上饶麻将宝牌vs赖子

在上饶麻将中,宝牌不仅可以用于胡牌,还可以用于吃、碰。这使得宝牌的使用更加灵活,增加了游戏的趣味性和策略性。

2025-01-24 00:38:29 898

原创 上饶麻将是怎么计算分数的?

在上饶麻将中,宝牌是一个特殊的存在,所以在计分规则中,有宝与无宝还是有着一定区别的,因为“宝”的加入使得玩家更容易胡牌,所以无宝胡牌时的分数往往要来的更多。看完了以上内容,相信大家对于上饶麻将的计分规则,应当有了一定的了解了。8、七对九幺清一色无宝自摸——胡牌64分(字一色)。11、碰碰胡九幺清一色无宝自摸——胡牌64分。12、碰碰胡九幺清一色有宝自摸——胡牌16分。5、碰碰胡清一色无宝自摸——胡牌32分。4、七对清一色无宝自摸——胡牌32分。6、碰碰胡清一色有宝自摸——胡牌8分。

2025-01-24 00:31:30 1813

原创 基于大模型的具身智能系统综述

得益于近期具有世界知识的大规模预训练模型的迅速发展,基于大模型的具身智能在各类任务中取得了良好的效果,展现出强大的泛化能力与在各领域内广阔的应用前景。鉴于此,对基于大模型的具身智能的工作进行了综述,首先,介绍大模型在具身智能系统中起到的感知与理解作用;其次,对大模型在具身智能中参与的需求级、任务级、规划级和动作级的控制进行了较为全面的总结;然后,对不同具身智能系统架构进行介绍,并总结了目前具身智能模型的数据来源,包括模拟器、模仿学习以及视频学习;

2025-01-24 00:00:52 1491

原创 智能体:不止于智能体

总的来说,虽然早期智能体研究取得了一些成功,例如基于规则系统和符号逻辑的简单智能体(如 Alexa、Siri)得到了广泛应用,一些多智能体框架(如群体机器人 和 AutoGen)在解决特定领域内的复杂任务方面也取得了成功,但仍然缺乏能够在功能(例如,解决复杂任务)和适用性(例如,广泛的场景、模态和上下文)方面都取得高分的智能体系统。单靠生成式人工智能不足以创建有效和可持续的智能体系统,我们可以创建一个整体的生态系统,包括模拟用户偏好的模拟人(Sims)、用于交互和协调任务的助手和执行任务的智能体。

2025-01-23 23:52:33 889

原创 物理AI大时代,一场“视觉数据争夺赛”将上演

大摩认为,正如聊天机器人需要文本数据来训练大语言模型(LLM)一样,物理机器人需要数据来训练其视觉-语言-动作模型(VLA),预计随着算力规模不断扩展且效率提升,AI公司需要大量的视觉数据来创建物理世界的“数字孪生”,视觉数据将成为AI巨头们的竞争焦点。这意味着,当AI技术成熟后,视觉数据将成为极其宝贵的资源。大摩预计,随着算力规模不断扩展且效率提升,AI公司需要大量的视觉数据来创建物理世界的“数字孪生”,即通过高精度的视觉数据构建一个虚拟的物理世界模型,全球范围内将展开一场争夺光学数据的“光子竞赛”。

2025-01-23 23:51:15 423

原创 RAG文档分块新思路:LGMGC如何提升文档分块的语义连贯性?

在。

2025-01-23 23:49:31 987

原创 美的集团发文:拒绝表演式工作,严禁下班时间开会、形式主义加班

(除技术方案、财务通报、集团和事业群 / 部年会外。其他如用 PPT,要求白底黑色几行字一页以内)。

2025-01-23 23:48:32 149

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除