万事可爱^-CSDN博客

原创使用Claude进行Graph-Engineering-14步路线图

规约到关键点，合成一个连贯叙述。Claude 工作流里，扇出是 parallel()，规约是 .filter().map() 等纯代码，合成是一个对规约结果操作的 Agent。规约层是零 Token 的——把 Agent 留给需要判断的地方。 08 · 管道：节点按顺序传递数据扇出给广度，管道给深度。当节点 B 消费节点 A 的全部输出时，它们是一条管道——A 的输出是 B 的输入，没有其他东西流入 B。它不同于菱形（收集所有结果后处理），管道可以流式传输：A 产出一个块，B 立刻处理，即使 A 还在生成

2026-07-22 11:25:20 175

原创卧槽！！！一觉起来国产模型干翻Fable5了

Kimi K3深度解析：2.8万亿参数开源巨兽登顶竞技场摘要：2026年7月，月之暗面发布新一代开源旗舰模型Kimi K3，其2.8万亿参数规模创全球开源模型新高。该模型凭借三大创新架构——混合线性注意力KDA、注意力残差AttnRes和稳定隐空间MoE，在长序列处理和深层网络优化上实现突破，整体效率较前代提升2.5倍。在权威竞技场评测中，K3前端代码能力登顶全球第一，文本总榜跻身前十，并在物理、法律、医学等专业领域获得盲测冠军。作为首个实现"向上定价"的国产模型，K3标志着中国AI企业技术实力和商业策略

2026-07-17 09:48:38 365

原创 Claude 能做的，远比你想象的多

这篇文章介绍了Claude AI的四个隐藏功能：Projects（项目记忆）、Artifacts（交互应用）、Adaptive Thinking（深度推理）和Memory（个人信息记忆）。每个功能都配有具体开启方法和实用prompt模板，能显著提升工作效率。文章特别强调这些被多数用户忽略的功能可以改变Claude的基础使用体验，使其从普通对话工具转变为个性化工作助手，并提供心理咨询师、严厉导师等角色扮演模板，突破AI默认的附和模式，实现更有价值的深度互动。

2026-07-10 17:32:17 240

原创 Anthopic 终于把 Claude 的 Loop Engineering 设计思路放出来了

Claude团队发布工程指南《Getting started with loops》，首次系统拆解AI循环设计方法。文章将循环定义为"Agent重复工作周期直至满足停止条件"，并按触发方式、停止条件、实现原语和适用场景四个维度分类，清晰区分了四种循环模式：轮次制循环（手动触发）、目标循环（量化验收）、时间循环（定时触发）和全自动循环（云端持续运行）。指南强调通过验证技能（Skill）提升循环质量，并提供具体代码示例和用量控制建议，为AI编程中的循环设计提供了标准化框架。

2026-07-08 15:33:36 374

原创 DeepSeek新框架DSpark原论文拆解

这次我们要拆解的是 deepseek 联合北京大学发表的官方投机解码框架，但是对于论文原文大家阅读都比较困难，所以我下面就以「原文 English → 中文翻译 → 拆解解释」的格式来为大家深度解读一下整篇论文到底讲了什么，话不多说，我们下面就以原文开始

2026-07-03 13:11:53 466

原创一句话缓解 Codex 降智，外网的这个帖子爆了！

摘要：实验发现，在AGENTS.md文件中添加"DO NOT send optional commentary"指令可显著缓解Codex模型的降智现象，正确率从20%提升至60%。该方案源自社区研究发现屏蔽commentary能改善Codex表现，相比修改system prompt更简便。测试使用糖果数学题评估，包含指令的项目正确率明显高于空白项目。虽然不能根除降智问题，但提供了一种有效的缓解方案。相关测试脚本已开源，支持一键运行验证效果。

2026-06-30 17:12:34 1014

原创外网大神发布的一篇《如何替代Claude代码和Code订阅》又又又火了！

外网大神博士 Sebastian Raschka, PhD 最近发了一篇文章来讲述《在本地编码工具中使用开放权重模型作为Claude代码和Codex订阅的替代方案》，刚发布就火爆外网，如果你不知道 Sebastian Raschka, PhD，那你一定知道《从零开始构建大型语言模型》这本书，没错他就是这本书的作者。

2026-06-30 16:49:49 232

原创一文讲透：Prompt Engineering、Context Engineering、Harness Engineering、Loop Engineering 到底有什么区别？

AI工程实践的演进并非线性替代，而是构建在Prompt、Context、Harness、Loop四层架构之上，每层对应不同的控制权让渡程度。Prompt Engineering通过角色设定、少样本学习等技巧精确表达意图，但面临边际效益递减和模型依赖的局限。Context Engineering引入动态信息管理，Harness建立自动化验证，Loop则设计系统级决策循环。关键在于识别何时停止优化当前层（如Prompt超过2000字符可能负收益），转而向上层寻求突破。这四层共同构成AI开发的基础设施

2026-06-23 13:45:45 593

原创白嫖党狂喜！OpenClaw 免费模型自动测速插件，9大平台自动选最快的

装上之后你在 OpenClaw 里设 `model: free-opt/auto`，剩下的它全自动。不用管哪个平台今天正常、哪个超时——插件每小时跑一次全面测速，把你的模型排名更新一遍，下次聊天自动走排名第一的，自动发现 9大平台的免费模型，实时测速，每次聊天自动切换到当前最快那个

2026-04-30 09:16:29 411

原创别只删npm包！OpenClaw彻底干净卸载指南，不留一丝安全隐患

前阵子跟风装了OpenClaw，玩了两周新鲜劲过了，想卸载腾空间，随手敲了一行`npm uninstall -g openclaw`就以为万事大吉。结果没过几天，安全圈的朋友发了个预警，说常规卸载方式会留下大量凭证和配置文件，哪怕删了CLI工具，API密钥、OAuth令牌、聊天记录全躺在系统里。我回去一查，果然`~/.openclaw`目录完整存在，里面的明文密钥、历史对话、绑定的账号权限一点没少，瞬间惊出一身冷汗，下面就教你怎样干净的卸载龙虾。

2026-04-09 13:47:55 643

原创别只会“养虾”：我读懂的 OpenClaw 核心架构与运行原理

最近几个月，OpenClaw 几乎刷屏了整个 AI 智能体圈子。网上到处都是“一键部署”“远程控制手机”“Telegram 养虾”这类教程，但我翻了一圈，几乎没人把它到底怎么跑起来的讲清楚。大家都在用，却很少有人真正理解：为什么一句话就能让电脑整理文件、让远端手机自动截屏？多设备是怎么被统一调度的？AI 凭什么敢直接操作你的桌面与文件？我花了几天时间把源码和架构文档啃完，然后翻阅了网上大量的教程和讲解视频以及架构的解析，今天用最通俗、最贴近开发视角的方式讲解一遍。

2026-03-18 09:58:22 1269

原创如何将Openclaw（龙虾）接入飞书

继在上一章发布龙虾安装教程之后，这一章我们来进行龙虾接入飞书的配置，如果你还没有安装 Openclaw，那你也可以阅读[Windows 环境下 OpenClaw 本地部署全攻略]我的这篇文章，来进行前期的安装和准备工作，话不多说，接下来我们就来看看如何实现将Openclaw接入飞书。

2026-03-11 16:23:14 1665

原创 Windows 环境下 OpenClaw 本地部署全攻略

作为一款功能强大的个人AI助理网关，OpenClaw能让你在Telegram、Discord、WhatsApp等多个平台无缝调用Claude、GPT-4、Google Gemini等顶级AI模型，且全程保障数据隐私安全。但是因为Openclaw无法支持Windows原生用户，只能通过WSL2配置，虽然现在网络上有很多的教程，但是翻了好多安装Openclaw的博文大多都是Mac/Linux安装的方法，Windows环境下的一般都一笔带过，考虑到Windows用户基数和大家使用习惯的问题，我还是决定出一集Win

2026-03-10 11:07:05 3383 3

原创 RAG最新消息：让大模型自己决定检索方式，全新 Agentic RAG 框架解析

摘要：中国科技大学与Metastone Technology联合提出的A-RAG框架对传统检索增强生成(RAG)技术进行了革新性升级。该技术通过赋予语言模型自主控制检索工具的能力，实现了动态检索策略选择和迭代信息收集。相比传统RAG的固定检索流程，A-RAG提供了关键词搜索、语义搜索和文本读取三种工具接口，在多跳问答任务中准确率提升10-20个百分点。该框架解决了传统RAG在检索维度单一、检索生成割裂和适配性差等方面的痛点，特别适合医疗、金融等对事实性要求高的领域。虽然存在性能开销等局限性，但A-RAG代表

2026-02-12 14:15:46 746 1

原创 LangChain v1.0学习笔记（4）—— 核心组件Models

要学习 LangChain 躲不过的就是它的几大核心组件，这些组件撑起了 LangChain 框架的重要功能，今天我们看一下 Models，这个组件到底应该如何应用，这也算是 LangChain 的功能起源了，调用大模型一般都是在这个组件下面，下面就让我们一起来看一看。

2026-01-12 16:04:29 1099 1

原创【2025年技术总结】从现在到未来，我的全年技术探索日志

2025年技术探索总结：作者回顾了全年60多篇技术文章，呈现出一条从基础工具到AI落地的完整学习路径。上半年聚焦SQL、Python基础和机器学习算法解析，下半年转向深度学习与大模型实践，并深入工程化部署（包括昇腾NPU适配）。通过RAG和AI Agent等新方向探索，实现了从"记结论"到"追根源"的思维转变。展望2026年，计划深耕大模型工程化和AI技术，秉持"慢下来，挖深一点"的理念，持续输出能解决实际问题的深度内容。这一年不仅收获了万粉博主的

2026-01-03 20:53:01 1005 2

原创昇腾NPU+Qwen-Image-Edit-F2P模型图像生成测试

本文详细测试了Qwen-Image-Edit-F2P模型在华为昇腾NPU环境下的表现。该模型基于Qwen-Image-Edit基础模型，通过LoRA技术优化了人脸驱动全身生成能力，能保持输入人脸特征的高度一致性。测试在GitCodeNotebook的昇腾Atlas800TA2服务器上进行，覆盖环境配置、模型部署、多场景生成和性能分析等环节。

2025-12-27 11:25:14 6766 9

原创新发布的deepseek-ocr模型真的那么牛吗？昇腾NPU上deepseek-ocr模型实践

摘要：本文详细记录了在昇腾NPU上部署测试DeepSeek-OCR模型的全过程。作者从OCR技术发展历程切入，介绍了从传统模板匹配到深度学习驱动的技术演进，重点评估了DeepSeek-OCR在多语种识别、复杂场景适应性的表现。通过在GitCode Notebook的昇腾910B环境中完成模型部署，测试了包括印刷体、手写体、多语种混合等5种典型场景，结果显示该模型平均推理时间1.23秒/张，显存占用1.28GB/张，识别精度显著优于传统OCR工具。文章还总结了环境适配、性能优化等实用建议。

2025-12-27 11:20:00 22552 9

原创 GitCode+昇腾部署Rnj-1模型实践教程

本文介绍了在GitCode+昇腾NPU环境中部署Rnj-1大模型的完整实践。通过GitCode Notebook的交互式开发环境和昇腾NPU的高效算力，详细讲解了从环境检查、依赖安装到模型部署和推理测试的全流程。文章重点解决了版本兼容性、模型权重下载加速等关键问题，并提供了性能优化建议和问题解决方案。实践表明，昇腾NPU在降低显存占用（FP16精度约14GB）的同时保持了良好的推理性能，结合GitCode的国内镜像和云端算力，为开发者提供了高效便捷的大模型部署方案。

2025-12-26 11:08:48 21676 8

原创 LangChain v1.0学习笔记（3）—— 核心组件Agents

本文介绍了LangChain v1.0中智能体(Agents)的核心组件与实现方式。智能体通过结合语言模型与工具，构建能够推理任务、动态选择工具并迭代推进解决方案的系统。文章重点讲解了三个核心组件：1) 模型(Model)作为推理引擎，支持静态和动态选择；2) 工具(Tools)赋予执行能力，支持自定义错误处理和ReAct循环；3) 系统提示词(System prompt)用于塑造智能体行为。文中提供了代码示例说明如何使用create_agent构建生产级智能体，包括模型配置、工具定义和中间件实现。智能体遵

2025-12-05 10:10:03 1070

原创 LangChain v1.0学习笔记（2）

本节笔记针对 LangChain v1.0 的发展历程以及安装和快速构建一个智能体出发，让我们更深入的了解 LangChain 的各个模块，对它有个大体的认知。

2025-11-21 14:47:01 1285

原创手把手教你用Rust实现一个现代化的命令行十六进制查看器

本文介绍了使用Rust语言开发现代化终端十六进制查看器的过程。项目充分利用了Rust的内存安全特性和高性能优势，结合clap、ratatui和crossterm等优秀库实现了功能丰富的hex viewer。核心功能包括：十六进制/ASCII双视图展示、键盘导航、搜索功能（支持大小写敏感切换）和美观的TUI界面。文章详细讲解了数据结构设计、界面渲染、键盘事件处理和搜索功能的实现方法，展示了Rust在系统工具开发中的强大表现力。该项目可作为学习Rust实际应用的良好范例。

2025-11-16 16:31:46 22193

原创 GitHub爆火开源项目——RustScan深度拆解

本文将从定位、发展历程、难易程度、核心优势四个维度，深入剖析Rust与C的差异，再通过“贪吃蛇游戏”的实战对比，量化两者在速度、内存、代码量等关键指标的表现，帮助程序员清晰判断“何时该用C，何时该选Rust”，文章较长，全文三万字，耐心看完，希望你能有所收获。

2025-11-14 13:39:49 5741

原创深入探索RustPython：用Rust构建的Python解释器

本文深度讲解在github上收获20.8k Star的爆火项目---RustPython，文章和一般讲解文章不同，旨在让读者更好的理解 RustPython 的整体架构，所以顺序按概述、核心虚拟机、对象系统、标准库、编译管道、项目组织的结构走，单独读本文可能你并不能很好的理解，但是读过本文之后你在去精读 RustPython 你会发现更容易上手。

2025-11-14 13:34:33 6244

原创 LangChain v1.0学习笔记（1）

本文为在官网学习 LangChain v1.0 文档的笔记，帮助大家在网络不畅，或者官网阅读困难的情况下学习 LangChain v1.0。

2025-11-12 17:44:00 1301

原创深度剖析Figure 03：人形机器人从实验室到量产的技术破壁者

在继Figure 02机器人在特斯拉工厂工作500天后，Figure AI公司有推出了家用场景下的Figure 03机器人，下面我们一起来看看这次推出的Figure 03机器人如何。

2025-11-01 08:19:58 3067

原创如何在云服务器上使用LLaMA Factory框架微调模型

LLaMA Factory是一款开源低代码大模型微调框架，集成了业界广泛使用的微调技术，支持通过Web UI界面零代码微调大模型。本文以DeepSeek-R1-Distill-Qwen-14B模型为例，介绍如何使用云平台（这里以阿里云平台为例，其他平台区别不大）及LLaMA Factory训练框架，完成模型的中文化微调和评估，以及为评估后的合并和本地模型注册ollama的方法。

2025-09-23 10:13:01 1705 1

原创 Dify外挂RAGFlow知识库实现精准召回

在AI模型应用编排领域，Dify凭借灵活的工作流设计、友好的交互体验，成为很多人搭建智能应用的首选；而RAGFlow则在文档解析、知识召回的精准度上表现突出。如果能让Dify“借用”RAGFlow的知识库能力，就能实现“强强联合”——既保留Dify的应用构建优势，又拥有RAGFlow可靠的知识检索效果。今天就手把手教你如何操作，让Dify外挂RAGFlow知识库，实现更精准的知识召回。

2025-09-02 17:10:50 1657

原创 Dify Windows 环境下部署全攻略

这是一篇深度安装Dify指南，从零开始教你在本地搭建Dify，保证小白也可以一遍搞定。

2025-09-02 14:59:39 3494 5

原创 Lora与QLora

举一个简单的例子让我们简单的认识一下Lora和QLora：一个130亿参数的大模型，全量微调一次要花上万元，普通开发者根本玩不起。这时候，**LoRA**和**QLoRA**就登场了——它们像给房子“局部改造”，只换关键家具（调整少量参数），既省钱又不破坏原有布局，让普通人也能玩转大模型微调。

2025-08-29 14:50:39 983

原创一文吃透大模型微调技术（附源码解释）

微调的本质是**在预训练模型基础上，使用特定任务数据集进行二次训练**，使模型参数适应新任务。其核心逻辑是：冻结预训练模型大部分参数（或全部参数），仅调整部分参数（或全部），以较小的计算成本让模型学习任务特性，而我们需要微调就要先了解整体微调的结构包含哪些部分，接下来我们就来认识一下

2025-08-11 10:40:00 1276

原创详解 RuntimeError: CUDA error: an illegal memory access was encountered 的解决之道

摘要：本文深入解析了深度学习开发中常见的"CUDA error: an illegal memory access"错误。该错误通常因GPU访问非法内存地址引发，具有延迟暴露、难以定位的特点。文章从硬件、软件和代码三个维度提出系统解决方案：硬件层面需检查散热、供电和显存健康；软件环境需确保CUDA版本与驱动匹配；代码层面要重点排查内存越界、释放问题和多线程安全。同时推荐使用cuda-gdb、Nsight Systems等专业工具进行高级调试。最后给出了从最小化测试到降低复杂度的系统性排查

2025-07-31 18:16:54 5195 1

原创大模型微调一文全解析

本文将带你走进大模型微调的世界，让你体会如何高效的让大模型根据自己的想法从基座模型变成某领域的专家。

2025-07-22 11:13:59 1345

原创简单明了的对比PyTorch与TensorFlow

摘要：PyTorch和TensorFlow作为当前两大主流深度学习框架，在设计理念与核心优势上各具特色。PyTorch采用原生动态图机制，提供灵活的开发体验和直观的Python接口，成为90%顶会论文的首选工具；TensorFlow则以静态图优化见长，通过Keras高阶API和成熟的部署生态，在工业级应用中占据优势。两者近年来呈现融合趋势：PyTorch 2.0引入编译优化提升性能，TensorFlow 2.x支持动态图增强易用性。选择框架需权衡需求——研究优先选PyTorch快速迭代，生产部署则倾向Ten

2025-07-15 11:25:56 1168

原创 Git安装（纯小白版）

Git是一款免费开源的分布式版本控制系统，常用于软件开发。它能记录文件在不同时间的改动，让用户在需要时查看、恢复旧版本。支持多人协作开发，多人可同时修改项目文件，Git会处理好冲突。开发者能在本地创建分支进行功能开发，完成后再合并到主分支。像许多大型软件项目、开源项目都用Git管理代码，本文将一步步带你安装Git。

2025-06-27 11:42:19 1228

原创 CPU、GPU、NPU、TPU、DPU与IPU的区别

在人工智能飞速发展的今天，我们每天使用的智能语音助手、刷到的个性化推荐、甚至手机的人脸识别功能，背后都离不开强大的硬件算力支撑。如果把AI模型比作大脑中的思维逻辑，那么AI硬件就是支撑这些逻辑运行的"肌肉"。从我们熟悉的CPU、GPU，到专门为AI优化的NPU、TPU，各类硬件层出不穷，这无疑加大了我们的理解难度，接下来我们就从CPU开始逐步了解各种处理器以及它的运作原理。

2025-06-27 11:02:19 2445

原创如何更改 Docker 镜像存储路径

Docker Desktop默认将镜像存储在C盘的`C:\Users\<用户名>\AppData\Local\Docker\wsl\data`路径下。随着镜像和容器数量增加，C盘空间可能迅速被占满。本文将通过**WSL实例迁移**和**高级挂载策略**两种方案，教你安全高效地迁移存储路径。

2025-06-19 15:07:51 5467 6

原创 RAGFlow 本地部署后如何连接本地模型

本文详细讲述了如何将本地模型配置到 RAGFlow，虽然没官方文档也有介绍，但是基本上是一笔带过，不是很详细，我也根据网上的方法做了一些尝试，但都没有达到想要的效果，于是就有了这篇文章，想详细记录一下部署过程，避免大家走弯路。

2025-05-21 16:24:02 5140 13

原创 Windows 环境下 Docker Desktop 安装 + 汉化

在开发过程中，Docker 是一款极为实用的工具。本教程专为 Windows 用户打造，将全面且细致地讲解 Docker Desktop 的安装与配置步骤，助您迅速入门并熟练掌握。同时，考虑到语言使用习惯，我们精心准备了 Docker Desktop 汉化教程，让您能以更直观易懂的界面管理和操作容器环境。期望这份指南能为您的开发工作增添助力，使 Docker 成为您提升效率的绝佳帮手。

2025-05-15 14:45:29 2211 1

原创 RAGFlow Windows环境下本地部署全攻略

本文讲述了如何从0构建RAGFlow，其中包括在windows系统下的docker、WSL以及ubuntu的详细安装步骤，保证初学者一看就会，其中也包括很多在安装中遇到的问题，可以让读者少走很多弯路

2025-05-13 10:07:51 23089 14

pandas - Zipped HTML

2025-04-21

这篇文章是《numpy-ref.pdf》文档的内容概述，主要介绍了NumPy 2.2.0版本的参考手册以下是文章的主要内容：

内容概要：本文档是关于NumPy库的官方参考手册，版本为2.2.0，发布于2025年1月19日。手册详细描述了NumPy的功能模块、对象及其用途。手册分为Python API、C API、其他主题和致谢部分。Python API部分介绍了NumPy的核心命名空间和子模块，包括常用的fft（快速傅里叶变换）、linalg（线性代数）、random（随机数生成）等模块。手册还涵盖了特殊用途和遗留命名空间的内容，以及各种异常处理机制。此外，手册提供了详细的函数参数说明、示例代码和相关的数学背景知识。适合人群：具备一定编程基础

2025-04-17

朴素贝叶斯的最优性研究

张教授关于朴素贝叶斯的最优性研究

2025-03-25

朴素贝叶斯的最优性研究

内容概要：论文探讨了朴素贝叶斯分类器（Naive Bayes）表现出色的原因。作者提出了一种新解释，即节点间的局部依赖关系及其分布对分类的影响比单纯依赖条件独立假设更为关键。无论属性间依赖关系有多强，如果这些依赖在不同类别的分布是均匀的，或者可以相互抵消，朴素贝叶斯仍然是最优选择。文中定义了两种分类器在零一损失函数下相等的概念以及提出了局部与全局依赖分布理论，并证明了一个充分必要条件来确定朴素贝叶斯的优化时机。另外还讨论了多元高斯分布情况下的具体优化条件，指出朴素贝叶斯可能由于属性间的依赖性相互补偿而保持高性能。适合人群：具有统计学基础知识或机器学习背景的研究者，数据分析师，从事机器学习领域的专业工作者。使用场景及目标：研究目的是为了深入了解为什么朴素贝叶斯分类器即使基于几乎不成立的前提——即所有特征在给定类别标签的情况下彼此独立，也能达到较好的预测性能。它适用于希望从数学角度解释朴素贝叶斯高效性的读者，或是试图改进现有模型效果并寻找更优解决方案的专业人士。阅读建议：对于那些想要了解朴素贝叶斯实际运作机制的人士来说，本篇文章提供了一个深入的技术解读。读者应该注意关注关于‘局部依赖导数比’的部分，这对于理解整个系统的性能至关重要。并且要注意到在特定情况下，即使违反条件独立性假设，朴素贝叶斯仍能有效工作的情况。最后部分有关于高斯分布下的分析，为实际应用提供了有价值的参考案例。此外，读者还可以从中获得一些新的见解和启示，用以思考怎样进一步提升类似模型的表现。

2025-03-25

TOKEN STATISTICS TRANSFORMER: LINEAR-TIME ATTENTION VIA VARIATIONAL RATE REDUCTION

内容概要：论文介绍了Token Statistics Transformer（TOST）及其注意力机制——Token Statistics Self-Attention（TSSA），这是一个基于白盒架构设计的新型自注意力模型。TOST的独特之处在于它不计算标记之间的成对相似度，而是从标记特征的二阶统计量构建低秩投影，因此仅需线性时间复杂度来完成任务，显著提高了处理大量高维令牌时的速度与内存效率。TOST在图像分类任务如ImageNet上展示了具有竞争力的表现，并且在长序列建模基准测试中的性能优于其它transformer架构变体，同时保持甚至提升任务表现。适用人群：对于机器学习尤其是深度学习领域有一定背景的研究人员和技术爱好者；对改进transformer架构有强烈兴趣的学生或者工程师们亦将受益。使用场景及目标：适用于需要高效处理大规模或长距离相关性的视觉和语言处理任务；目标包括替代传统自我关注操作以提高系统效率和可解释性，同时确保模型效果不受损或得到优化。其他说明：作者提供了详细的实验设置及配置信息，并对比了多个现有模型的参数数量和效能指标，表明在减少计算资源消耗方面存在明显优势。未来研究方向集中在验证更大规模应用下的精度是否仍然具有竞争力以及探索替换MLP模块的设计可能性。此外，在因果版本的语言建模任务中也取得了良好的结果，证明了该方法在不同应用场景下的通用性和灵活性。

2025-02-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

pandas - Zipped HTML

这篇文章是《numpy-ref.pdf》文档的内容概述，主要介绍了NumPy 2.2.0版本的参考手册 以下是文章的主要内容：

朴素贝叶斯的最优性研究

朴素贝叶斯的最优性研究

TOKEN STATISTICS TRANSFORMER: LINEAR-TIME ATTENTION VIA VARIATIONAL RATE REDUCTION

大模型清华大学手把手教你如何使用DeepSeek（内附清华大学官方资料）

大模型清华大学手把手教你如何使用DeepSeek（内附清华大学官方资料）

大模型DeepSeek-R1 论文原文翻译

聚类实例数据集 - 电商数据集

kaggle平台Wine Quality 数据集

空空如也

这篇文章是《numpy-ref.pdf》文档的内容概述，主要介绍了NumPy 2.2.0版本的参考手册以下是文章的主要内容：