强化学习曾小健3-CSDN博客

原创 MOE Yuan2.0 预训练 Yuan2.0-M32/examples/pretrain_yuan2.0_moe_2x32B.sh

这个脚本配置并运行了一个名为 "Yuan-2.1B" 的大规模预训练模型，涉及多个 GPU 和可能的多节点分布式训练。可以通过 ' 标志激活基于局部过滤的注意力 (LFA)本文档提供了Yuan2.0-M32预训练模型的说明。标志可以控制简单而高效的三维模型并行方法。在运行脚本之前，应正确设置相关参数。首先，进行任何所需的修改，包括设置、将标志设置为，则每个管道阶段的。逐行解释 "Yuan-2.1B。命令执行分布式训练脚本。控制训练期间内存的使用。Yuan2.0 预训练。变压器层数应由指定。

2024-07-10 21:05:54 901

原创大模型RAG面试：第四章：RAG关键技术深度剖析：生成器（Generator）与增强（Augmentation）

深入探讨RAG系统中生成器（Generator）与增强（Augmentation）相关的关键技术，包括大型语言模型的应用、Prompt工程的最佳实践、上下文管理与融合策略，以及RAG的微调方法。在检索增强生成（RAG）系统中，检索器（Retriever）负责从知识库中召回相关信息片段，而生成器（Generator），通常是一个大型语言模型（LLM），则负责理解这些检索到的信息（上下文）以及用户原始查询，并基于此生成最终的、高质量的答案。增强（Augmentation）过程则是指如何有效地将检索到的知识组织并

2025-05-28 17:22:46 291

原创大模型RAG高阶面试指南:第三章：RAG关键技术深度剖析：检索器（Retriever）

向量嵌入（Vector Embedding）是将离散的、高维的数据（如文本、图像、音频）映射到低维、连续的向量空间中的稠密向量（Dense Vector）的过程。这些向量，也称为嵌入向量或特征向量，旨在捕捉输入数据的核心语义特征。

2025-05-27 17:24:05 563

原创第二章：RAG的核心原理与基本架构

RAG系统的工作流程是理解其核心原理的关键。一个典型的RAG系统通过精心设计的多步骤流程，将外部知识与大型语言模型的生成能力有机结合，从而产生准确、相关且具有事实依据的回答。本章将概览RAG的核心步骤，并对各组件进行初步阐述，为后续章节（第三章检索器深度剖析, 第四章生成器与增强）对各组件的深入剖析奠定基础。一个基本的RAG流程可以概括为：用户提出查询后，系统首先对查询进行预处理和编码，然后利用编码后的查询在预先构建好的知识库索引中检索相关信息片段。检索到的信息片段经过后处理和筛选。

2025-05-27 17:16:00 317

原创大模型RAG高阶面试指南：第一章：RAG绪论

检索增强生成（Retrieval Augmented Generation，简称RAG）是一种结合了信息检索和文本生成的人工智能技术。它通过在生成过程中动态检索相关信息来增强大型语言模型的能力，从而提供更准确、更及时、更可靠的回答。RAG的核心思想是将"参数化知识"（存储在模型参数中的知识）与"非参数化知识"（存储在外部知识库中的知识）相结合，通过检索机制动态获取相关信息，然后将这些信息作为上下文提供给生成模型，以产生更高质量的输出。Q1: 请简单解释什么是RAG（检索增强生成）？

2025-05-27 17:01:45 741

原创大模型RAG高阶面试指南：目录大纲

本书旨在为准备大模型RAG领域高阶职位的技术人员提供一套全面的面试准备指南。借鉴《百面深度学习》等系列书籍的风格，本书将核心知识点与大量模拟面试问答相结合，帮助读者系统性地梳理RAG的理论基础、核心技术、高级架构、评估优化及实际应用，提升应对技术面试的综合能力。

2025-05-27 16:53:43 335

原创 [deepwiki]小智ESP32概述 https://github.com/78/xiaozhi-esp32

在典型应用场景中，如视频渲染工作站，这些组件协同工作时：CPU负责解码计算，内存暂存中间数据，存储系统保存素材和成品，网络模块实现团队协作，电源系统保障持续供电。XiaoZhi ESP32 项目采用灵活的配置系统，支持不同的硬件配置和功能集。音频处理是 XiaoZhi ESP32 系统的关键组件，负责处理来自麦克风的输入和到扬声器的输出。该系统采用Opus编解码器进行高效的音频压缩，从而以较低的带宽要求实现高质量的音频传输。构建系统根据这些配置选项编译适当的组件，创建适合特定硬件和要求的固件。

2025-05-27 16:45:05 2113

原创 ICLR 2025 杰出论文 | 模型编辑：必要性、短板与破局法

模型编辑是一个高效更新大模型内部所存储知识（如错误、过时和不安全知识）的技术。与微调相比，它的主要优势有两个：1.可以定向更新任意数量的知识（可少至几条），而不用担心过拟合、灾难性遗忘等问题。2.几乎是无需训练（Training Free）的，实时性强。一个很直观的问题是，在这个微调技术茁壮成长、层出不穷的时代，为什么我们需要模型编辑？上述俩个优势，到底会给它带来怎样的应用空间呢？叶问外传》中有一句非常破圈的话，叫：“七步之外，枪快；七步之内，拳快。

2025-04-28 16:43:34 1034

原创小游戏出海谷歌之广告变现

BIGO Ads，Chartboost，DT Exchange，Google Bidding，InMobi，IronSource，Liftoff Monetize，Meta，Mintegral，MobileFuse，Moloco，Ogury，PubMatic，Pangle，Smaato，Unity，Verve Group，VK Ad Network，Yandex，YSO Network等。老美有各种税表，1040、1099、W-2/4/9/8BEN等等，太复杂，我们不需要深究，只关注W-8BEN即可。

2025-04-28 15:51:38 1320

原创打包PyQt程序——从PyInstaller到Nuitka、auto-py-to-exe

同时，还将通过一个不带选项的命令行操作和一个带选项的命令行操作的实例，展示如何使用Nuitka来打包你的PyQt程序。auto-py-to-exe更像是PyInstaller的图形界面软件。本部分将介绍auto-py-to-exe的安装过程，并通过一个具体的操作实例，演示如何使用这个工具来打包你的PyQt程序。本部分将详细介绍PyInstaller的安装步骤，并通过不带选项的命令行操作、带选项的命令行操作以及压缩打包后的程序大小等实操案例，带你一步步掌握PyInstaller的使用技巧。

2025-04-28 15:49:26 538

原创收藏！人形机器人产业链深度梳理

导语：人形机器人产业链涉及的四大环节：感知、交互、运控、导航。2025年04月22日 18:53。点击下方小程序查看详情。

2025-04-28 15:46:36 374

原创为什么小红书成了新百度，而知乎没有？

平台的核心价值，其实不一定是内容的专业度，而是。

2025-04-28 15:43:34 1912

原创用 AI 做一个微信小程序小程序用的是 Taro + React 开发

这是一个用AI开发小程序的全过程的记录，小程序的界面样式、95%的前端代码、95%的后端代码（剩下的5%是我手动修改了一些些，但约等于全都是用AI实现了😂）都是由AI生成的，不得不说 AI 发展的实在太快了。早些时候关注我的小伙伴可能还记得之前尝试做过一个 AI 测运势的小程序，当时是用 Midjourney 生成了一些小程序上用到的配图，用 ChatGPT 生成了一些文案，界面设计、小程序前端、后端都是自己写的。

2025-04-28 15:41:18 2265

原创 Ray Flow Insight：让分布式系统调试不再“黑盒“RayData、RayTrain、RayServe、OpenRLHF、veRL

我们在ant-ray的。

2025-04-28 15:35:26 1475

原创 4大类AI Agent协议框架全面综述

提出了一个二维分类框架，将协议分为上下文导向型（Context-Oriented Protocols）和代理间通信型（Inter-Agent Protocols），并进一步细分为通用型（General-Purpose）和特定领域型（Domain-Specific）。：由Anthropic提出，是一个通用的上下文获取协议，允许AI代理通过标准化的方式与外部资源（如数据、工具和服务）进行交互。义：代理协议是标准化框架，定义了代理之间以及代理与外部系统之间结构化通信的规则、格式和程序。与传统交互机制（如API。

2025-04-28 15:18:58 1312

原创 Kimi-Audio：引领音频大模型的全新时代

Kimi-Audio不仅开源代码和模型参数，还提供了完整的评测工具包，标志着音频AI领域迈入了一个新的时代。月之暗面（Moonshot AI）杨植麟团队领导研发的Kimi-Audio模型横空出世，这款被称为"语音世界大一统"的音频大模型。OpenCSG社区：https://opencsg.com/models/AIWizards/Kimi-Audio-7B。既能理解"说了什么"（语义内容），又能保留"怎么说"（音色、情感等细节）模型不同，Kimi-Audio能够"听"、"说"、"理解"和"对话。

2025-04-28 15:15:13 1415

原创简单 Kimi-Audio技术报告

Kimi-Audio 的出现标志着音频处理技术的一个重要突破。它通过创新的模型架构、大规模的数据处理和多任务预训练策略，实现了音频理解、生成和对话的通用化和高效化。随着开源策略的推进，Kimi-Audio 有望激发更多的研究和创新，推动音频处理技术迈向新的高度。对于音频处理领域的研究人员和开发者来说，Kimi-Audio 不仅是一个强大的工具，更是一个充满潜力的研究平台，值得我们深入探索和利用。

2025-04-28 15:13:50 1073

原创华裔学者Nature发文：多模态AI大模型将开启生物学分析新时代

然而，在推广应用 MFM 的过程中，仍然存在技术和监管方面的挑战和限制。研究团队表示，通过迁移学习，MFM 可以应用于多种下游任务，例如新型细胞类型识别、生物标志物发现、基因调控推断和虚拟扰动等，有望开启 AI 赋能的生物学分析新时代，揭示分子细胞生物学的复杂机制，支持实验设计，并扩展我们对生命科学的理解。在预测基因功能和调控方面，MFM 能够学习多组学数据中的统一模式，从而预测基因功能，并重建特定环境下的基因调控网络，例如结合转录组和染色质可及性数据，揭示重要的调控因子。模型应能接受不确定的输出结果。

2025-04-28 15:00:27 917

原创超越Transformers！谷歌发布「深度学习架构设计」通用框架Miras｜今日热门论文

他们进一步开发了多 agent 框架 LearnAct，其能够自动从演示中提取知识，从而提高任务完成度，集成了三个专业 agent：用于知识提取的 DemoParser、用于相关知识检索的 KnowSeeker 和用于演示增强任务执行的 ActExecutor。实验结果表明，在离线和在线评估中，模型性能都有显著提高。通过实证分析，来自香港科技大学和蚂蚁集团的研究团队揭示了 LRM 行为的一个重要特征，即在思考 token 之间插入由较小模型生成的外部思维链（CoT），可以有效地操纵模型产生更少的思维。

2025-04-28 14:59:41 681

原创诺奖得主、AlphaGo之父《时代》专访：AI远不如人类科学家，根本提不出有价值的猜想

学术头条学术头条 2025年04月28日 12:14 北京原文作者：Billy Perrigo，《时代》周刊驻伦敦分社记者，主要报道科技行业，关注那些以奇特和意想不到的方式重塑我们世界的公司。原文链接：https://time.com/7280740/demis-hassabis-interview/【编者按】去年 10 月，DeepMind 联合创始人 Demis Hassabis 因开发 AlphaFold 以解决蛋白质复杂结构预测问题，而获得了诺贝尔化学奖；2016 年，他和他的团队开发的 Al

2025-04-28 14:57:21 1072

原创 github个人页面锐评报告gitbox.hust

GitHub 锐评生成器

2025-04-28 14:18:31 193

原创 Google首席科学家万字演讲回顾AI十年：哪些关键技术决定了今天的大模型格局？Jeff Dean

智猩猩 2025年04月28日 11:52 北京智猩猩精选第63篇，转自公众号：数字开物。本文只做学术/技术分享，如有侵权，联系删文。Google 首席科学家Jeff Dean 今年4 月于在苏黎世联邦理工学院发表关于人工智能重要趋势的演讲，本次演讲回顾了奠定现代AI基础的一系列关键技术里程碑，包括神经网络与反向传播、早期大规模训练、硬件加速、开源生态、架构革命、训练范式、模型效率、推理优化等。算力、数据量、模型规模扩展以及算法和模型架构创新对AI能力提升的关键作用。以下是本次演讲实录经数字开物团队编译整理

2025-04-28 13:43:33 1055

原创别让 AI 成为技术债制造机！Cursor 设计总监 Ryo Lu 的 12 条防坑指南与工程化实践

在 Cursor 中，通过＠明确指定文件，目录，代码片段，文档，项目代码库，互联网为上下文，精确地将 AI 的注意力引导至当前任务相关的代码部分，并明确排除不相关部分。给予它清晰的路线图，必要的工具和信息，及时的纠偏和指导，它就能爆发出惊人的能量，成为你手中无往不利的开发利器。为大型项目的首次索引预留足够时间（例如，在非工作时间进行）。反之，如果缺乏这种结构化的引导和必要的控制，过于迷信 AI 的自主能力，盲目地将任务“外包”给它，那么等待你的，很可能就是那一盘难以下咽、越理越乱的“AI 意大利面”。

2025-04-24 14:45:16 2128

原创 AI编程赛道火热，为什么国资选中北大aiXcoder？｜甲子光年

另外，我们也发现这些针对于C端提供的编程助手，在引入Agent以后，对整体的项目改动是没有严格边界的，有的时候会改动程序员不希望修改的很多文件，导致程序员并不知道自己的哪些项目被修改过。，同时需要紧贴着企业的软件开发框架，将企业内部那些稳定的、大量的业务逻辑和高频代码场景，利用AI的方式找出来并提取为Prompt体系，然后在用户输入的应用节点，以背景信息的形式、灵活的以智能化的方式提供给大模型，从而显著提升模型的业务理解力和输出准确率，这种方式确保了模型输出更贴合企业和用户实际需求。

2025-04-24 14:36:40 1017

原创 V0更新：AI驱动的全栈Web开发工具，击败了Bolt 、Cursor、Windsurf 吗？

免费计划的v0 用户现在最多可以创建 3 个项目。项目允许你设置自定义指令并将你自己的源代码引入v0.1 版本。，时长00:53这一条挺不错的，至少你可以和Cursor更好联动。你现在可以选择 UI 生成的特定部分进行更改。，时长00:19多文件联合修改（以前是不支持的）v0 现在也可以通过自定义子域部署到 Vercel。，时长00:24v0 可以连接到数据库、API和其他外部服务。，时长01:00可以从已发布的块创建PWA。这些可以安装到主屏幕。

2025-04-16 17:51:48 1221

原创当初吹上天的 Devin，现 $20/月对标 Cursor？多 Agent 并行，曾让程序员“失业”的它来了！

Steven Hao (看起来是官方大佬) 回答说，Devin 的核心目的是“通过委派来给你加杠杆”(leverage via delegation)。有意思的是，里面有个 “POP QUIZ” 部分，可能会被利用来当越狱的后门，因为据称这个指令的优先级最高，能覆盖之前的指令。比如里面定义了 Devin 是个“代码高手”(code-wiz)，用的是真实的操作系统，任务就是用好各种工具帮用户完成任务。都以为 Devin 要抢走所有人的饭碗。当然，也有人看着 Devin 2.0 的发布，想起了当初的“盛况”。

2025-04-16 17:06:13 478

原创中国AI可灵2.0炸裂上线，好莱坞慌了

在插入新弹匣的瞬间，一发流弹几乎擦着TA的头飞过，迫使TA猛地一缩头 (6-7s)。的森林小径渐行渐远，她长发飘逸，乌黑顺直，浅色肌肤在自然光线下更显细腻。中景，跟随女子背影的视角，展现她融入。输入提示词“老虎怒吼后猛然冲向镜头，张口扑咬，巨大的身体掀翻树木，镜头剧烈晃动，模拟第一人称逃跑视角，穿越丛林，狂奔躲避追击，树枝划过镜头，恐惧与速度并存”看电影时，你忘了他是影帝，你沉浸到剧情里，忘了他是谁，只记得他演绎的角色。这次2.0版本一上线，可灵更是超越了自己，直接把AI视频的效果提升到了一个全新的层次。

2025-04-16 16:41:55 864

原创一文搞懂风靡硅谷的 Vibe Coding，跟上 AI 编程的新范式

2025年2月，前OpenAI和特斯拉AI团队领导者Andrej Karpathy在社交平台X上发布了一条引发广泛讨论的帖子，提出了"Vibe Coding"（感觉式编程）的概念。这一概念描述了开发者"完全沉浸在感觉中"，依靠大语言模型（LLM）生成代码而无需理解输出的开发方式。短短两个月内，Vibe Coding迅速成为科技圈热门话题，甚至被美国韦氏词典收录为"俚语和流行词"。简单来说，Vibe Coding是一种让AI为你编写代码的方法，你只需用自然语言描述你想要什么，而不必关心代码实现细节。

2025-04-04 22:06:22 2178

原创加速通用人形机器人的开发：NVIDIA Isaac GR00T N1

由于需要大量特定于任务的数据、高昂的计算成本，且模型的泛化能力有限，针对每一个新的任务和环境，从零开始训练这些模型是一个非常繁琐的过程。通过结合这些多样化的数据并使用诸如潜在动作训练等技术，机器人可以从大规模、未标记的人类视频数据中学习而无需监督，从而形成一种强大的策略，增强机器人训练，提高 GR00T N1 的性能和适应性。与扩散策略基线相比，Isaac GR00T N1 模型展示了更平滑和流畅的运动，以及在抓取精度上的显著提高，特别是在使用较小的后训练数据集进行微调时。

2025-04-04 22:05:11 945

原创 swift GRPOTrainer类源码解析

如何处理 DeepSpeed Stage 3 参数收集。如何自定义训练回调以优化内存和数据加载。如何定义训练过程中的输入输出缓存结构。它是构建一个高效、可扩展的大模型训练框架的重要组件。*_args,**kwargs):else:else:= 'no':else:else:o-LatestPoe这段代码定义了类，是 Swift 框架下用于强化学习人类反馈（RLHF）的大模型训练器，集成了多个模块（如 vLLM、LMDeploy、DeepSpeed等）。

2025-04-04 22:03:07 967

原创多模态GRPO完整实验流程 swift

本任务从数据集出发，模型的目标是输出图像中包含的物体数量，因此，我们定义数据集如下：classsubsets=[),],这里重新定义的目的是修改query。数据集示例样本如下，包含messages,images和solution字段，solution会送入后续的奖励函数中，而messages和images则会作为模型输入。将会在中被移除，可以忽略。'solution'字段将会透传入ORM中。在自定义数据集时，'images'字段组织成即可。。

2025-04-04 21:56:58 2247

原创 GRPO完整实验流程 swift

的任务目标是根据给定的几个数字和加减乘除四种运算，得到目标数字，因此，我们定义数据集如下："""通过template，使用 numbers 和 target完成任务定义，并给到 query 字段供模型采样使用。同时，我们需要保留 nums 和 target两个字段，用于后续的奖励函数计算。本任务使用的奖励函数有两个，一个是 Deepseek-R1 中提到的格式奖励函数，另一是 Coundown Game 的准确性奖励函数。前者已经在swift中内置，通过。

2025-04-04 21:44:17 2440

原创 FlashTokenizer: 基于C++的高性能分词引擎，速度可以提升8-15倍

FlashTokenizer是一款面向高性能计算的CPU分词引擎，专门针对BERT等Transformer架构的大型语言模型进行了底层优化。该引擎基于高效C++实现，采用了多项性能优化技术，确保在维持词元切分准确性的同时，大幅提升处理速度。通过与业界广泛应用的等标准分词器的对比测试，FlashTokenizer在相同硬件环境下实现了8-15倍的性能提升。这一显著的速度优势使模型推理过程中的文本预处理时间得到大幅缩减，从而提高了端到端应用的响应效率。

2025-04-04 21:40:19 1071

原创大语言模型的起点「基础模型」

基础模型的特点类似于「背诵课文」，它擅长记忆和补全已有内容，可以准确的记住下一个参数是什么，而当你的问题超过它所记忆的知识截止日期，它就会胡说八道。例如，在英语文本中，「Hello」后面往往跟着「World」，因此模型可以学习这种规律，将高频短语映射为单个 Token，以减少存储和计算成本。」，但可能会得到不同的答案，这是因为模型在推理过程中仍然存在一定的随机性和未微调的状态。上面的图片，从左到右，从上到下，这些文本人类可以识别，但计算机不能，计算机无法直接理解自然语言，因此必须将文本转换成数值。

2025-04-04 20:40:49 847

原创通过 Markdown 改进 RAG 文档处理通过 Markdown 改进 RAG 文档处理作者：Tableau原文地址：https://zhuanlan.zhihu.com/p/291397

2025年04月03日 08:01广东。

2025-04-04 20:38:18 931

原创不止朱啸虎，具身智能投资人心里也打鼓

好几个早期投机器人的基金今年都打算退，在2022、2023年出手的项目，现在普遍回报都有5-10倍，明年的逻辑就是落地PMF，妖魔鬼怪要现形，不好堆估值了。2022年10月1日，大洋彼岸的特斯拉发布首款人形机器人“擎天柱”，如同蝴蝶扇起一阵飓风，吹起了中国具身智能的创业浪潮——隔年，两家独角兽企业智元机器人和银河通用先后成立。这也导致一个特殊的现象——“具身智能项目第一轮是通常朋友圈或者最活跃的美元基金，接着就是相关的产业方与CVC，又因为看不到其他增量资金来源，国资的入局比原来更迅速。

2025-04-04 20:35:32 939

原创里程碑，GPT-4.5大模型正式通过图灵测试！

每个点代表一个单独的游戏。：GPT-4.5-PERSONA 的胜率为 73%，LLAMA-PERSONA 为 56%，而 GPT-4.5-NO-PERSONA 和 LLAMA-NO-PERSONA 的胜率分别为 36% 和 38%。审讯者所采用策略的分类，左侧显示各类策略在游戏中的占比，右侧显示使用这些策略的游戏的平均准确率，并附有95%置信区间。然而，在 GPT-4.5-PERSONA 和 LLAMA-PERSONA 的游戏中，裁判的准确率并不显著高于随机水平，表明他们无法可靠地区分人类和这些模型。

2025-04-04 20:33:52 1443

原创彻底搞懂一个算法，Prophet！！

原创程序员小寒程序员学长 2025年04月02日 23:35 北京大家好，我是小寒今天给大家分享一个超强的算法模型，ProphetProphet 算法是由 Facebook 开发的一种时间序列预测算法，特别适用于处理具有强季节性、节假日效应和趋势变化的时间序列数据。该模型的设计目标是简化时间序列预测任务，使得用户无需对数据做过多的预处理，且具有良好的可解释性。Prophet 是一种基于加法模型的时间序列预测算法，它通过分解时间序列为不同的组成部分来进行建模。具体来说，Prophet 假设时间序列可以

2025-04-04 20:32:41 1509

原创 llm.c项目 github

我还认为这样做具有教育目的，可以建立专家上限和测量单位，例如，您可以说您手动编写的内核是 cuBLAS 速度的 80%，等等。如果有一个 PR 可以将性能提高 2%，但它“花费” 500 行复杂的 C 代码，甚至可能是一个奇特的第三方依赖项，我可能会拒绝该 PR，因为复杂性不值得。举一个具体的例子 - 将 cuBLAS 作为根训练循环中的 matmuls 默认值是明智之举：它使主线代码更快，它是一行可解释的代码，并且它是一种非常常见的依赖项。这是了解如何在 C 中实现这些层的一个很好的起点。

2025-04-04 20:30:28 683

原创上饶麻将宝牌vs赖子

在上饶麻将中，宝牌不仅可以用于胡牌，还可以用于吃、碰。这使得宝牌的使用更加灵活，增加了游戏的趣味性和策略性。

2025-01-24 00:38:29 1619

空空如也

空空如也