人工智能，智能体及数字员工_几道之旅的博客-CSDN博客

人工智能，智能体及数字员工

文章平均质量分 79

数字员工，祝你摸鱼。~~ 数字员工替你做牛马，你作为中间商赚差价。~~ 美哉！美哉！

文章数：157 文章阅读量：66962 文章收藏量：33

作者: 几道之旅

日更一年，静待花开

展开

探索Puter：一个基于Web的轻量级“云操作系统”

Puter以精简的架构实现了“云操作系统”的核心概念，为开发者提供了探索WebOS可能性的实验田。尽管尚未达到生产级成熟度，但其模块化设计和API优先的理念值得关注。对于有兴趣参与开源贡献或希望定制私有云桌面的开发者，Puter无疑是一个值得尝试的项目。延伸思考：未来是否会出现完全基于浏览器的主流操作系统？Puter的实践或许正在为这一愿景铺路。相关资源官方文档Demo体验GitHub Issues讨论。

原创 2025-05-21 17:56:27 · 3 阅读 · 0 评论
【每天一个MCP】【记录向】：准备工作，创建github项目

尝试一下这个桌面版的github。

原创 2025-05-20 23:18:19 · 78 阅读 · 0 评论
Awesome ChatGPT Prompts：释放AI对话潜力的开源利器

是由土耳其开发者 Fatih Kadir Akın 发起的开源项目，托管于 GitHub，旨在通过精心设计的提示词模板（Prompts）优化用户与 ChatGPT 的交互体验。项目以 Markdown 和 CSV 格式管理模板，无需复杂编程语言，但需文本处理能力，目前已在 GitHub 上获得超过。通过合理利用提示词库，用户可最大化释放 ChatGPT 的潜能，而 Awesome ChatGPT Prompts 正是这一旅程的最佳起点。虽无复杂代码，但需文本处理与版本控制能力，适合开发者快速参与贡献。

原创 2025-05-20 16:02:31 · 398 阅读 · 0 评论
开发者必备的免费 API 资源库

是一个在 GitHub 上开源的免费公共 API 集合项目，旨在为开发者提供覆盖多领域的 API 接口资源。截至 2025 年，该项目已获得33.1 万 Star和超30 万 Fork，成为 GitHub 上最受欢迎的 API 资源库之一。其核心价值在于帮助开发者快速获取经过验证的 API，节省开发时间与成本。凭借其全面的资源整合、开发者友好的设计及活跃的社区维护，成为 API 开发领域的“瑞士军刀”。无论是个人项目原型开发、毕业设计，还是企业级应用的快速验证，它都能显著提升效率。

原创 2025-05-19 16:55:18 · 105 阅读 · 0 评论
到底什么是拒绝采样？

拒绝采样通过“覆盖-筛选”的机制，将复杂采样问题转化为简单分布上的采样和概率判断。它是蒙特卡洛方法中的经典技术，广泛应用于统计计算和机器学习中。绘制样本直方图（归一化为密度图）与理论分布曲线对比，验证采样结果是否正确。（比如均匀分布或高斯分布），通过“接受”或“拒绝”样本的方式，间接得到。如果飞镖落在红色区域内（接受），否则丢弃（拒绝）。）的样本，但直接采样困难。的示例代码，基于之前提到的目标分布。难以直接采样时，我们可以借助一个。上积分值为 1（已归一化）。）和均匀分布建议分布。找一个容易采样的分布。

原创 2025-05-17 09:30:00 · 168 阅读 · 0 评论
探索大型语言模型（LLM）的开源学习路径：mlabonne/llm-course 深度解析

mlabonne/llm-course 通过精心设计的课程结构，将碎片化的LLM知识整合为可落地的学习路径。无论是希望快速上手的实践派，还是追求深度理解的学术派，都能从中获得价值。在LLM技术快速迭代的今天，系统化学习将成为开发者的核心竞争力。这个开源课程正是您通往LLM专家之路的理想起点！延伸阅读Hugging Face LLM手册PyTorch Lightning文档LangChain官方教程。

原创 2025-05-16 16:07:21 · 268 阅读 · 0 评论
用MCP往ppt文件里插入系统架构图

本文介绍了一种基于Markdown自动生成系统架构图的工具，主要使用PPT进行绘制。该工具通过三个核心模块实现：Markdown解析模块、动态布局引擎和PPTX生成模块。Markdown解析模块利用正则表达式和栈结构构建树形结构，动态布局引擎采用递归算法计算节点位置，PPTX生成模块则负责将布局结果转换为PPT文件。工具还集成了MCP服务，支持API直接返回PPT文件。文章详细描述了技术实现细节，包括自适应布局算法、样式继承体系等，并提供了性能优化和部署实践建议。该工具已在多个技术团队中应用，显著提升了系统

原创 2025-05-15 23:17:31 · 435 阅读 · 0 评论
vllm serve到底是如何运行的？（2）

这个流程中，vLLM通过深度优化的架构（如PagedAttention、张量并行）实现了高性能推理服务。该篇主要讲述，vllm serve运行具体会调用哪些py文件，以及这些文件执行的先后顺序。命令启动服务时，代码执行涉及多个核心模块和文件。讲述了vllm serve运行的大致流程。

原创 2025-05-15 15:13:21 · 136 阅读 · 0 评论
使用MCP把公式输出到word文档里，大家觉得这玩意儿有用吗？

cline端的设置比较傻瓜化，我这里只贴相关的图片哈~需要补充的，可以在评论区呼唤我。❶ FastMCP框架集成。❷ Markdown解析层。❹ OML代码执行器。

原创 2025-05-14 19:18:08 · 314 阅读 · 0 评论
高仿微信客户端开发实践 | WeClone 技术解析

WeClone 是一个基于 Android 原生开发的高仿微信客户端项目，通过模块化设计和现代化技术栈，实现了微信核心功能的深度复刻。项目亮点100% 原生开发，无第三方 UI 框架依赖采用最新 Android Jetpack 组件构建完整实现即时通讯核心链路高度还原微信交互动效WeClone 项目完整展现了现代 Android 开发的最佳实践组合大型应用模块化架构设计范例即时通讯场景的完整解决方案Jetpack 全家桶的深度应用示范欢迎开发者们参与贡献。

原创 2025-05-14 16:13:05 · 221 阅读 · 0 评论
UI-TARS Desktop：用自然语言操控电脑，AI 重新定义人机交互

它通过自然语言与视觉的深度融合，让技术回归“服务于人”的本质。尽管面临性能优化与协议标准化的挑战，但其开源属性与字节跳动的生态支持，预示其将在自动化、教育、无障碍等领域掀起变革浪潮。正如一位开发者所言：“这让我想起了早期智能手机的触控革命——UI-TARS 可能正在重新定义我们与数字世界的交互方式。其核心目标是通过自然语言指令，让计算机像人类一样“感知-推理-行动”，完成复杂的 GUI 操作。例如，用户只需说“打开 Word 并输入‘hello’”，AI 即可自动解析任务、定位界面元素并执行操作。

原创 2025-05-13 17:07:27 · 408 阅读 · 0 评论
想实现一个基于MCP的pptx生成系统架构图【初版实现】

该项目利用Python技术栈，结合MCP协议、python-pptx库和FastMCP工具，旨在实现PPTX元素的动态生成与标准化模板管理。其核心创新点在于通过MCP协议将PPTX元素生成逻辑封装为原子化工具，实现AI模型与绘图工具的解耦，并利用MCP的Resource/Tool原语进行动态资源管理。系统采用Client-Server架构，支持未来扩展分布式部署能力。主要功能包括模板验证、元素绘制和动态布局计算，通过PPTXTemplate类实现模板的规范化管理。当前项目仍处于开发阶段，后续将持续更新完善。

原创 2025-05-12 23:20:32 · 321 阅读 · 0 评论
vllm serve到底是如何运行的？

整个流程可概括为：解析参数 → 初始化引擎 → 启动API服务 → 处理客户端请求 → 高效推理生成。vLLM 通过深度优化的架构设计，实现了远超传统框架的吞吐量和响应速度。

原创 2025-05-12 09:27:27 · 219 阅读 · 0 评论
开源ESP32语音助手项目「小智同学」

小智同学」是由开发者78基于ESP32微控制器打造的开源语音交互项目，通过集成语音识别、语音合成等模块，实现了低成本智能语音助手的完整解决方案。硬件成本控制在50元人民币以内本地离线语音识别（无需联网）支持中文语音合成播报可扩展的指令集系统Arduino兼容开发框架在// 新增天气查询指令「小智同学」项目展现了开源硬件在语音交互领域的巨大潜力，其低成本、高灵活性的特点，为智能设备开发者提供了优秀的参考实现。通过持续迭代优化，该项目有望成为中文语音交互领域的标志性开源解决方案。

原创 2025-05-09 16:46:53 · 398 阅读 · 0 评论
基于LLM的全自动视频生成工具：MoneyPrinterTurbo 技术解析

MoneyPrinterTurbo 是一款开源的自动化视频生成工具，由开发者harry0703在GitHub上开源发布。该项目通过整合大型语言模型（LLM）、文本转语音（TTS）和视频合成技术，实现了从文本主题到完整视频的端到端自动化生成。其核心设计理念是通过配置化的方式，帮助用户快速生成适用于短视频平台的内容。MoneyPrinterTurbo 展示了LLM与多媒体处理技术结合的强大潜力。其模块化架构设计（LLM适配层、TTS抽象层、渲染引擎）为开发者提供了良好的扩展基础。

原创 2025-05-08 14:12:20 · 153 阅读 · 0 评论
貌似我的ollama加载的模型被下载了两份？终于搞懂原理了。

简单来说，homedir，就是你cd ~时到达的那个文件夹。例如，我现在使用的用户叫user，那么我的homedir，一般就是/home/user如果是root，cd ~一般就是到达，/root/

原创 2025-05-07 00:17:17 · 350 阅读 · 0 评论
Failed to initialize NVML: Driver/library version mismatchNVML library version: 550.144

重启的原理就是系统自动会更新Kernel的版本。driver的版本和Kernel的版本不一致。但就是得把和nvidia的进程都给杀掉。没重启之前，是550.120（好像是）现在也是550.144了。可以看到是550.144。那是因为我重启完了。有条件的还是重启吧。

原创 2025-05-06 23:26:36 · 200 阅读 · 0 评论
ollama的一个诡异事实。sudo service ollama start v.s. nohup ollama serve &

我们在重复测试时发现更诡异的现象：同一台机器上不同运行方式加载的模型版本可能不同。通过三个实验对比，我们发现Ollama服务的运行方式直接影响其行为模式。两种方式运行的ollama，效果竟有如此大的不同。这也没啥嘛，服务关了，报错是应该的。

原创 2025-05-04 23:26:09 · 23 阅读 · 0 评论
修改ollama.service都可以实现什么？

设置模型加载最长等待时间（默认 5 分钟），防止僵死进程。，以专用低权限账户运行服务，降低安全风险（需提前创建用户。允许所有来源的 HTTP 请求，解决前端跨域问题。设置临时文件存储路径，避免占用系统默认分区空间。启用详细调试日志，便于排查启动或运行问题。指定自定义模型存储路径（默认路径为。确保服务崩溃后自动重启，提升稳定性。针对多用户场景优化提示缓存。

原创 2025-05-03 23:43:48 · 157 阅读 · 0 评论
linux下，ollama会把模型文件保存在哪里？

这还不简单，我把系统服务关掉，如果这个进程没有了，然后重启服务，它又在了，不就说明问题了吗？系统自己启动的ollama，实际上就是这个。不是很懂，大概率模型文件就在这两个文件夹里。我们用两种方式，来运行ollama。打完指令后，截图的进程没有了。0.6b果然挺2的。

原创 2025-05-03 23:40:35 · 192 阅读 · 0 评论
linux下安装ollama网不好怎么办？

也不知道咋回事儿，最近这个github，就是时好时坏的。也不知道为啥。

原创 2025-05-01 23:20:03 · 394 阅读 · 0 评论
Qwen3本地化部署，准备工作：SGLang

该框架近期新增对混合专家（MoE）模型的原生支持，并在 2025 年 MLPerf 基准测试中创下 72K tokens/秒的吞吐量记录。SGLang 是一个面向大语言模型和视觉语言模型的高效服务框架。Qwen3是通义千问系列大语言模型的最新版本，提供包括密集型和混合专家（MoE）模型的完整产品矩阵。该版本在保持技术专业性的同时，通过双模式架构设计平衡了专业任务处理与日常交互需求，标志着大模型技术向实用化方向的重要演进。但显存大的各位大佬，还是可以试试的。这个算力要求太高了，咱就不想了。

原创 2025-04-30 23:42:01 · 366 阅读 · 0 评论
23G显存可以跑多大尺寸的Qwen3？

随着阿里Qwen3系列大模型的发布，开发者们对如何在有限显存下部署不同尺寸的模型尤为关注。本文基于Qwen3的技术特性和实际测试数据，探讨在23G显存环境下可运行的模型选择及优化策略。不过由于咱财力有限，只有一张A100，还不是空的，目前只有23G的显存。那么这23G显存能跑什么模型呢？

原创 2025-04-29 23:44:15 · 454 阅读 · 0 评论
有哪些和PPT自动生成有关的MCP项目？

MCP通过协议标准化和工具链整合，正在推动PPT生成从“人工操作”向“智能编排”转变。当前，SlideSpeak等项目的成功验证了该路径的可行性，而更广泛的生态建设（如开源MCP Server库、企业API适配）将是下一阶段的关键。对于开发者而言，掌握MCP协议与主流PPT工具的对接技术，将成为提升AI应用价值的重要能力。

原创 2025-04-28 23:47:13 · 470 阅读 · 0 评论
GRPO有什么缺点，如何改进？

GRPO通过创新的组内相对奖励机制，在特定任务中实现了资源效率与性能的平衡。然而，其存在的优化偏差、稳定性缺陷和理论缺口仍需学术界与工业界共同攻克。随着Dr. GRPO、MGRPO等改进方案的提出，以及理论分析的逐步深入，GRPO有望成为复杂推理任务强化学习的标准范式。

原创 2025-04-28 23:41:18 · 116 阅读 · 0 评论
大模型、知识图谱和强化学习三者的结合，可以形成哪些研究方向？

大模型（Large Language Models, LLMs）、知识图谱（Knowledge Graph, KG）与强化学习（Reinforcement Learning, RL）作为人工智能领域的三大核心技术，其融合正推动着认知智能迈向新高度。本文结合2023-2025年的最新研究成果，系统梳理三者结合的七大科研方向及其技术路径。

原创 2025-04-27 23:39:52 · 123 阅读 · 0 评论
Weaviate使用入门：从零搭建向量数据库的完整指南

Weaviate是一款开源向量搜索引擎，专为存储和检索高维向量数据设计，支持文本、图像等多种媒体类型。低延迟：毫秒级响应时间，适用于实时场景。灵活扩展：支持数十亿级数据对象，模块化架构可集成自定义模型（如PyTorch、TensorFlow）。多模态支持：适配文本、图像、音视频等多种数据类型。云原生设计：提供GraphQL和REST API，无缝对接现有技术栈（如LangChain）。创建数据类（Class）schema = {],

原创 2025-04-26 23:26:39 · 324 阅读 · 0 评论
详解 `from datasets import load_dataset`：数据格式、公开数据集与自定义数据集实战指南

本地文件加载# 加载多 JSONL 文件动态内存构建复杂预处理 Pipeline结合map分布式优化技巧# 保存为 Arrow 格式加速后续加载。

原创 2025-04-26 23:19:45 · 239 阅读 · 0 评论
【闲聊记录向】我的贪吃蛇智能体现在怎么样了？

我翻看了强化学习这个专题下的日志，发现第一篇文章是4月3号发的。经过了20多天的奋战，我现在终于算是把强化学习相关的一些内容搞明白了。这个系列看的人不是很多，但自己还是蛮开心的，就当是取悦自己吧。

原创 2025-04-25 23:45:15 · 461 阅读 · 0 评论
让贪吃蛇小游戏适配大语言模型（含代码）

标准化接口：符合reset()step()范式可观测性：提供丰富的状态信息可重复性：通过状态序列化支持实验复现扩展性：模块化设计便于功能扩展后续可结合DQN、PPO等算法实现自动游戏控制，也可作为强化学习教学案例使用。

原创 2025-04-24 23:37:17 · 148 阅读 · 0 评论
历时一个月，终于对强化学习有了一知半解的了解，完成了一段心心年的代码，基于GRPO和大模型实现AI玩贪吃蛇

目前刚开始训练，明天看看训练的效果吧。

原创 2025-04-24 23:32:21 · 299 阅读 · 0 评论
rl中，GRPO损失函数详解。

在TRL（Transformer Reinforcement Learning）库中，GRPO（Group Relative Policy Optimization）是一种基于策略优化的强化学习算法，其核心目标是通过组内相对奖励和KL散度约束实现稳定高效的模型训练。以下结合代码实现，详细解析GRPO损失函数的设计逻辑。GRPO的提出是为了解决传统PPO（Proximal Policy Optimization）算法中依赖价值模型（Value Model）带来的计算复杂性问题。

原创 2025-04-23 23:25:02 · 105 阅读 · 0 评论
这个经常看到，但好像不会也没啥影响的Jinja是个什么东西？盘点各类用法

你可能在Flask的HTML模板里见过它，或在Ansible的配置文件中偶遇过它的语法，甚至是在静态网站生成器中无意间调用过它的功能。，核心目标是将业务逻辑与展示层分离，通过模板动态生成文本内容（如HTML、XML、配置文件等）。它的设计理念是“允许模板设计师拥有足够的表达能力，同时避免过度侵入业务逻辑”。，Jinja以简洁的语法和强大的扩展能力，悄然支撑着从Web开发到运维自动化的多种场景。（base.html）：定义通用结构（如页头、页脚）。👆在大模型中，jinja被用来描述默认的对话模板。

原创 2025-04-23 06:48:39 · 162 阅读 · 0 评论
盘点那些用于多轮对话的Special Token

Special Token是语言模型中预定义的符号，用于标注对话结构而非直接参与语义表达。它们通过注意力机制与上下文交互，帮助模型识别对话轮次边界、角色切换和任务指令。角色标记（如<|user|>）划分说话者身份，确保回复风格一致性状态标记（如[REC][GEN]）引导模型执行推荐或闲聊等特定动作结构化标记（如）封装元数据，防止注入攻击。

原创 2025-04-22 23:05:47 · 140 阅读 · 0 评论
盘点HuggingFace Tokenizer的常见操作

掌握Hugging Face Tokenizer的细节能显著提升NLP任务效率。建议结合官方文档和实际项目需求，灵活选择分词策略与配置参数。随着多模态和长文本模型的发展，Tokenizer的功能将持续扩展，开发者需保持对新特性的关注。

原创 2025-04-22 23:00:10 · 98 阅读 · 0 评论
盘点强化学习中的各种O（DPO、PPO、GRPO等）

在强化学习领域，以字母"O"（Optimization）结尾的算法因其独特的优化机制和广泛的应用场景备受关注。这些算法覆盖了策略优化、偏好对齐、物理建模等多个方向，并在大模型对齐、机器人控制、复杂系统仿真等领域展现出强大潜力。本文将对PPO、GRPO、GPO等核心算法进行系统解析，并探讨其技术特点与前沿进展。

原创 2025-04-21 18:38:17 · 157 阅读 · 0 评论
6G显存可以跑基于GRPO的LLM训练吗？（调包侠？无所谓啊。建议学习强化学习第一步，就是成为一个调包侠。）

由于6G显存，确实还是太小了，咱们能做的应该就仅仅是把模型跑起来而已，如果想得到实际的结果，还是得想办法找更优秀的显卡啊~Windows环境下，请使用wsl运行。

原创 2025-04-21 18:20:11 · 253 阅读 · 0 评论
这可能是你一辈子都遇不到的一个bug。from unsloth import FastLanguageModel ImportError: cannot import name ‘FastLangua

今天给大家分享一个特别搞笑的报错。这个报错呢，你基本上一辈子都不会遇到一回。但你遇到了，也搜到了此博文，必然不免被原因逗笑。但同时，你要是没有搜到此博文，那就~

原创 2025-04-20 23:14:00 · 166 阅读 · 0 评论
详解trl中的GRPOTrainer和GRPOConfig

GRPO是一种基于组内相对优势比较分组采样：对同一提示（prompt）生成多条回答（completions）形成组（group）。奖励归一化：计算组内回答的归一化奖励，避免依赖显式价值函数（Critic Model）。KL正则化：引入KL散度惩罚项，防止策略模型（Policy Model）过度偏离参考模型（Reference Model）。

原创 2025-04-20 10:27:37 · 104 阅读 · 0 评论
可以用大语言模型玩贪吃蛇吗？咱也不知道，只能走一步，看一步了~

用大语言模型控制贪吃蛇虽在实时性、稳定性上不及传统RL，但其自然语言推理能力为游戏AI提供了新的可能性——或许未来我们能看到LLM在《星际争霸》《DOTA》等复杂游戏中的表现RIGHT = 0LEFT = 1UP = 2DOWN = 3# 初始化显示# 初始化游戏状态self.head,# 确保食物不生成在墙壁位置# 1. 收集用户输入quit()# 2. 移动# 3. 检查是否游戏结束reward = 0# 计算蛇头与食物的曼哈顿距离。

原创 2025-04-19 23:19:09 · 112 阅读 · 0 评论

人工智能，智能体及数字员工

作者: 几道之旅

探索Puter：一个基于Web的轻量级“云操作系统”

【每天一个MCP】【记录向】：准备工作，创建github项目

Awesome ChatGPT Prompts：释放AI对话潜力的开源利器

开发者必备的免费 API 资源库

到底什么是拒绝采样？

探索大型语言模型（LLM）的开源学习路径：mlabonne/llm-course 深度解析

用MCP往ppt文件里插入系统架构图

vllm serve到底是如何运行的？（2）

使用MCP把公式输出到word文档里，大家觉得这玩意儿有用吗？

高仿微信客户端开发实践 | WeClone 技术解析

UI-TARS Desktop：用自然语言操控电脑，AI 重新定义人机交互

想实现一个基于MCP的pptx生成系统架构图【初版实现】

vllm serve到底是如何运行的？

开源ESP32语音助手项目「小智同学」

基于LLM的全自动视频生成工具：MoneyPrinterTurbo 技术解析

貌似我的ollama加载的模型被下载了两份？终于搞懂原理了。

Failed to initialize NVML: Driver/library version mismatchNVML library version: 550.144

ollama的一个诡异事实。sudo service ollama start v.s. nohup ollama serve &

修改ollama.service都可以实现什么？

linux下，ollama会把模型文件保存在哪里？

linux下安装ollama网不好怎么办？

Qwen3本地化部署，准备工作：SGLang

23G显存可以跑多大尺寸的Qwen3？

有哪些和PPT自动生成有关的MCP项目？

GRPO有什么缺点，如何改进？

大模型、知识图谱和强化学习三者的结合，可以形成哪些研究方向？

Weaviate使用入门：从零搭建向量数据库的完整指南

详解 `from datasets import load_dataset`：数据格式、公开数据集与自定义数据集实战指南

【闲聊记录向】我的贪吃蛇智能体现在怎么样了？

让贪吃蛇小游戏适配大语言模型（含代码）

历时一个月，终于对强化学习有了一知半解的了解，完成了一段心心年的代码，基于GRPO和大模型实现AI玩贪吃蛇

rl中，GRPO损失函数详解。

这个经常看到，但好像不会也没啥影响的Jinja是个什么东西？盘点各类用法

盘点那些用于多轮对话的Special Token

盘点HuggingFace Tokenizer的常见操作

盘点强化学习中的各种O（DPO、PPO、GRPO等）

6G显存可以跑基于GRPO的LLM训练吗？（调包侠？无所谓啊。建议学习强化学习第一步，就是成为一个调包侠。）

这可能是你一辈子都遇不到的一个bug。from unsloth import FastLanguageModel ImportError: cannot import name ‘FastLangua

详解trl中的GRPOTrainer和GRPOConfig

可以用大语言模型玩贪吃蛇吗？咱也不知道，只能走一步，看一步了~