想ai抽-CSDN博客

原创 Spark Executor 因节点内存超限被杀的分析与应对

Spark SQL任务内存调优

2026-06-14 14:04:24 418

原创现有数据治理平台能力梳理与Gravitino结合点分析

数据治理平台能力差距分析通过对现有数据治理平台与Gravitino的对比分析，发现核心差距集中在元数据管理模式、多源统一视图、权限管控和AI资产管理等方面。现有平台采用被动采集模式，存在元数据时效性差、多源体验割裂等问题；而Gravitino通过直接管理模式提供实时同步和统一命名空间。重大差距包括元数据管理架构差异、统一权限缺失和AI资产管理空白。中等差距体现在数据源覆盖和血缘引擎支持方面。现有平台在数据质量管理和资产运营方面保持优势。建议采用互补整合策略：由Gravitino承担底层元数据管理，保留现有

2026-05-25 21:57:56 405

原创 AIAgent友好的数据治理框架-Apache Gravitino技术调研报告

Apache Gravitino是一个高性能、地理分布式的联邦式元数据湖项目，旨在成为数据与AI资产的统一管理平台。其核心特点包括：直接管理模式：通过连接器实时读写底层元数据，避免传统采集模式的延迟问题；统一对象模型：提供Metalake→Catalog→Schema→资源的四级模型，屏蔽异构数据源差异；全面功能覆盖：支持元数据管理、访问控制、标签策略等，并扩展AI资产管理能力；多引擎兼容：为Spark/Trino/Flink等计算引擎提供统一元数据访问入口。相比传统元数据工具（如Atlas/Da

2026-05-25 21:43:40 658

原创 StarRocks 存储引擎设计深度调研笔记

StarRocks采用分层数据架构（Table→Partition→Bucket→Replica→Rowset→Segment），支持随机/Hash分桶策略和3副本存储。数据以列式Segment文件存储，包含Data Page、Zone Map等索引结构。写入流程为MemTable→Flush→Compaction，MemTable按排序键有序存储，Flush生成Rowset版本文件。Compaction采用Cumulative+Base两级合并策略，减少小文件提升查询性能。设计上平衡了存储效率与查询性能，

2026-05-22 14:24:00 887

原创 StarRocks 数据模型深度调研笔记

StarRocks提供四种表模型：Duplicate Key（明细模型）、Aggregate（聚合模型）、Unique Key（唯一键模型）和Primary Key（主键模型）。所有表类型都基于排序键存储数据，并支持前缀索引加速查询。Duplicate Key表适合原始日志分析，完整保留明细数据但不支持更新；Aggregate表通过预聚合减少存储量，适合统计场景；Unique Key表采用Merge-on-Read策略，支持频繁更新但查询性能受影响；Primary Key表采用Merge-on-Write策

2026-05-22 14:19:09 460

原创 hermes-kanban-技术架构学习与调研

Hermes Kanban 是 Hermes Agent 框架中最具创新性的模块之一，它将看板方法论与 AI Agent 编排深度融合，通过 SQLite 持久化、角色化分派、并行执行和闭环学习，实现了从"一次性工具"到"长期数字伙伴"的范式转变。项目以 MIT 协议开源，社区活跃度高（10万+ Star），技术架构先进，生态丰富，是目前 AI Agent 领域最值得关注的开源项目之一。

2026-05-21 22:11:14 475

原创 hermes-kanban-安装与操作手册

Hermes Agent 是由 Nous Research 开发的自主进化 AI 智能体框架，其核心特点是能够通过持续交互积累经验、沉淀技能并记忆用户偏好。最新版本引入的 Kanban 看板系统支持多智能体任务编排，通过 SQLite 持久化实现任务拆解、角色分配和并行执行。安装方式灵活多样，支持一键脚本、Docker、手动安装和云镜像等多种部署方案。系统采用 Profile 隔离机制，可为不同角色配置差异化模型和技能，实现高效协同工作。该框架特别适合需要长期协作、任务复杂且要求状态持久化的应用场景。

2026-05-21 22:06:15 846

原创快手Kylin 全局字典机制与京东StarRocks Bitmap 精确去重技术调研

数仓开发中使用 SparkSQL 进行高效海量数据的字典构建，插入到 StarRocks 的 Bitmap 类型字段中，支撑精准 rollup（sum 值与 count distinct 值）

2026-05-15 22:58:50 414

原创京东重度使用的StarRocks 视图与异步物化视图深度调研【建议收藏】

StarRocks提供三种视图机制满足不同数据查询需求：普通视图（虚拟表，实时计算）、同步物化视图（基表索引，同步更新）和异步物化视图（独立物理表，异步刷新）。普通视图适合逻辑封装和权限控制，同步物化视图适用于单表实时聚合，异步物化视图支持多表JOIN和灵活刷新策略。三种视图在数据存储、更新机制和适用场景上各有特点，可根据实时性要求、查询复杂度等需求选择使用。异步物化视图还支持分区增量刷新和透明查询改写，能显著提升查询性能。

2026-05-15 22:04:46 529

原创 Agent记忆架构设计剖析系列：原理、权衡与场景适配（展望）

本文系统拆解了 OpenClaw、Hermes、Claude Code 三款主流 Agent 框架的记忆架构，三者均以解决传统大模型 “上下文遗忘” 与 “长周期知识沉淀” 痛点为核心，但基于不同的设计哲学形成了迥异的技术路线 —— 每一种路线，都是对 “记忆系统核心矛盾” 的不同解法，也对应着不同的场景需求。

2026-04-30 03:04:24 245

原创 Agent记忆架构设计剖析系列：原理、权衡与场景适配（总结）

为了更清晰地展示三款框架的记忆架构差异，本文从记忆模型、存储介质、检索机制、核心特性、性能指标等维度进行横向对比，为开发者提供直观的选型参考。

2026-04-30 02:50:13 576

原创 Agent记忆架构设计剖析系列：原理、权衡与场景适配（claude code设计原理）

ClaudeCode是Anthropic推出的编程专用AI框架，其创新性记忆系统采用四层认知架构：L1层存储项目规范（CLAUDE.md），L2层自动记录关键决策（AutoMemory），L3层管理会话上下文（SessionMemory），L4层通过AutoDream子代理自动整理记忆。该系统通过文件存储而非数据库实现版本控制与隐私保护，有效解决了传统编程助手"跨会话遗忘"和"上下文膨胀"问题。经测试，该架构使代码审查效率提升30%，bug率降低25%，特别适合长周期

2026-04-28 21:54:20 490

原创 Agent记忆架构设计剖析系列：原理、权衡与场景适配（hermes设计原理）

Hermes是一款基于"认知经济性"原则设计的智能Agent框架，其创新性记忆系统通过五层分级存储和严格的价值筛选机制，实现了记忆质量与系统效率的优化。核心特点包括：1) 分层记忆架构，将信息按价值优先级存储在从核心冻结层到环境层的五级结构中；2) 主动学习机制，通过记忆审查、晋升规则和GEPA自我进化引擎动态优化记忆内容；3) 严格容量控制，核心记忆层仅保留3575字符的最关键信息。该系统显著提升了上下文管理效率（Token减少60%），在数字助理、智能客服等场景中展现出持续学习优势

2026-04-28 21:49:11 779

原创 Agent记忆架构设计剖析系列：原理、权衡与场景适配（openclaw设计原理）

OpenClaw记忆系统采用分层蒸馏架构，将记忆分为四个层级：短期工作台（24小时）、中期日志（26小时）、任务结果卡（任务周期）和长期记忆（永久）。通过"日增量同步+周度精炼"机制实现信息价值提纯，采用QMD混合检索策略（任务优先→语义→全文）确保精准度，并设计"软修剪+硬保留"机制优化上下文窗口管理。系统通过持续蒸馏降低冗余度，在保证关键信息不丢失的前提下实现高效记忆管理，体现了类人认知的信息处理逻辑。

2026-04-25 07:59:13 410

原创 Agent记忆架构设计剖析系列：原理、权衡与场景适配（引言）

本文对比分析了OpenClaw、Hermes、ClaudeCode三大Agent框架的记忆系统设计。三者针对大模型的记忆痛点提出了不同解决方案：OpenClaw采用分层蒸馏架构实现可审计的记忆管理；Hermes通过五层主动学习系统平衡记忆质量与效率；ClaudeCode模拟人类认知流程实现记忆自动化处理。研究指出，优秀记忆系统需解决三大核心矛盾：上下文窗口限制与知识增长的矛盾、短期灵活性与长期一致性的矛盾、记忆准确性与检索效率的矛盾。通过分层存储、动态治理和混合检索等策略，这些框架为长周期任务中的记忆管理提

2026-04-23 22:10:09 465

原创 Claude Design：AI 重塑设计工作流的新范式

摘要 Claude Design是Anthropic Labs推出的新一代AI设计协作工具，基于Claude Opus 4.7多模态能力，实现从概念到可交互原型的端到端设计流程。相比传统工具，其核心创新在于：1）自然语言驱动设计，大幅降低使用门槛；2）自动识别应用企业设计系统，确保规范一致性；3）一键生成可交互原型并支持多格式导出。技术架构采用三层云端SaaS设计，通过专项优化的视觉模型实现设计元素解析和交互意图理解。

2026-04-18 23:41:13 918

原创低配个人电脑怎样跑LLM支持openclaw和hermesAgent

MacBook Air M4 16GB专属Ollama优化方案：通过一键脚本实现永久配置，限制GPU使用(5层加速)、CPU线程(4核)和模型加载(1个)，确保低发热、不卡办公。方案提供参数详解，推荐适配7B以下模型如qwen3.5，并附恢复默认方法。特别优化无风扇机型使用体验，重启仍有效，兼顾性能与续航。

2026-04-18 16:24:33 512

转载建议收藏：压榨Hermes Agent的15 个干货技巧与5大核心心法

摘要： Hermes Agent 是一款具有自我学习和记忆沉淀能力的智能体，通过高频使用可显著提升效率。其核心使用原则包括：复利积累、结果导向、透明化控制、精简记忆和人机协作。实践技巧涵盖配置优化（如编辑 MEMORY.md、培养 Skill 技能）、高效交互（目标导向提问、结构化输入、多模型切换）以及进阶工作流（定义完成标准、本地工具映射、复盘优化）。Hermes 强调**“成长型”协作模式**，初期需主动调教，后期可高效执行复杂任务。建议定期备份技能文件，形成可迁移的“数字资产”。

2026-04-18 15:54:08 431

原创 Openclaw本地存储文件架构说明

OpenClaw是一个多Agent本地存储架构，采用模块化目录结构管理AI代理系统。核心配置文件存储在~/.openclaw/目录下，包含openclaw.json全局配置和自动备份文件。架构支持多个独立Agent（如main/will/ollama_test等），每个Agent拥有专属的模型配置、认证信息、工作空间和会话历史。工作空间采用Git版本控制，存储记忆系统（每日记忆、长期记忆）、行为指南和用户画像等重要数据。

2026-02-13 14:23:09 925

原创基于openagents创建我的股票智囊团

本文介绍了一款基于LLM Agent协同的股票智囊团分析工具。该产品通过模拟专业投资视角（如巴菲特、格雷厄姆等）的Agent协同讨论，采用"独立观点-反馈-共识收敛"的闭环流程，帮助投资者高效获取多元专业观点。核心功能包括：讨论配置、多Agent观点生成与反馈、共识收敛判断及结构化报告输出。技术架构集成Gemini模型和OpenAgents网络，采用轻量化内存存储实现实时交互。

2026-01-14 10:08:02 527

原创故事串讲OpenAgents的核心特性

摘要：OpenAgents是一个智能助手平台，通过模块化设计实现多功能集成。其核心特性包括：1）可插拔模块（Mods）按需组合，如PPT生成、差旅安排等专业功能；2）支持多种协议（HTTP/WebSocket/EVM/IPFS），连接数字与物理世界；3）事件驱动系统实现自动化工作流。该平台采用开放生态设计，允许功能持续扩展，将复杂的多应用操作简化为自然语言指令，成为连接现实世界的智能枢纽。

2025-12-18 08:48:10 490

原创 StarRocks PB 级日增量数据模型优化：注意点、调优策略与风险防控

摘要： StarRocks处理PB级日增量需平衡高吞吐导入与低延迟查询，从数据模型、分区分桶、导入策略、存储优化及资源调度五维度系统优化。关键点：模型选择：按业务场景选明细/聚合/主键模型，避免全表扫描或聚合开销；分区分桶：时间分区+高基分桶键，单分区50-200GB，分桶数按数据量动态计算；导入优化：StreamLoad分批写入（≤10GB/批），错峰调度，限流防OOM；查询加速等等

2025-12-09 11:09:23 1135

原创 web3区块链-加密小镇的 “十年庆典徽章”：ERC-721 全流程故事（含所有核心接口）

摘要：加密小镇为庆祝建镇十周年发行100枚限量纪念徽章，采用ERC-721标准解决数字资产确权与流通问题。通过mint铸造唯一徽章，ownerOf验证所有权，tokenURI展示徽章详情，transferFrom实现安全转让，approve/approveForAll完成授权管理。ERC-721标准化接口使限量徽章具备防伪、可追溯、跨平台流通的特性，为数字收藏品建立了通用规范，让"独一无二"的资产在区块链上实现安全高效的流转与管理。

2025-12-02 21:26:26 1297

原创 web3区块链-小镇店铺的 “借力办事”：call 与 delegatecall 的区别与联系

摘要：本文通过水果店Alice和管理咨询店Bob的类比，解释Solidity中call和delegatecall的区别。两者都用于合约间调用，但关键差异在于操作谁的存储：call执行被调用合约的代码并修改其存储，而delegatecall执行被调用合约的代码但修改调用合约的存储。call适用于修改对方状态（如调用USDT转账），delegatecall适用于复用逻辑并修改自身状态（如代理合约升级）。存储结构必须对齐是delegatecall的特殊要求。

2025-12-02 14:41:10 1107

原创隐私计算 - 三家蛋糕店的 “秘密协作“：多方计算（MPC）的诞生与原理

故事环节MPC 对应概念核心作用三家店的销售额敏感私有数据多方需要协作计算的原始数据，不可泄露拆分销售额为随机碎片秘密分享（Secret Sharing）将原始数据拆解为无意义碎片，分散存储各自计算碎片和分布式计算参与方仅对本地碎片计算，不接触原始数据汇总碎片和得到总销售额结果聚合公开局部计算结果，聚合得到最终答案没人能偷看 / 作弊安全模型满足 "半诚实 / 恶意模型"，抵御作弊和数据窃取。

2025-12-01 18:26:25 1326

原创 Iceberg、Paimon 与 Hudi：数据湖三剑客的初心与进化

数据湖三剑客对比分析摘要：Iceberg、Hudi和Paimon是当前主流的数据湖解决方案，各有特色。Iceberg(Netflix开源)专注批处理可靠性，适合PB级离线分析；Hudi(Uber开源)强调实时更新，实现流批平衡；Paimon(Flink社区)则为流式处理优化，提供毫秒级延迟。三者分别采用清单文件、COW/MOR和LSM-Tree架构，在事务控制、Schema演变等方面各具优势。选型需考虑场景需求：离线分析选Iceberg，流批平衡选Hudi，Flink实时数仓则首选Paimon。未来三大项

2025-12-01 16:07:40 1343

原创 web3区块链的交易是怎样物化形式记录在区块中的

比特币区块链采用结构化存储方案实现高效交易验证：每个区块由80字节区块头和约1MB区块体组成，后者以二进制格式存储4,194笔交易。交易通过Merkle树构建索引，叶子节点存储交易哈希，最终生成32字节Merkle根存入区块头。这种设计使轻节点仅需下载区块头即可验证交易，全节点则存储完整二进制交易数据。交易数据包含版本号、输入输出列表等字段，通过双重SHA256哈希生成唯一txid。Merkle树验证机制确保任何篡改都会被检测，分布式节点网络保障数据安全，实现去中心化、高效验证与防篡改的平衡。

2025-11-27 11:21:57 700

原创 Web3比特币区块链：10 分钟区块与 7 TPS 的关系解析

比特币区块链的7TPS源于其核心设计：10分钟出块时间和1MB区块大小限制。这是中本聪为平衡安全性与去中心化做出的刻意选择，而非技术缺陷。计算显示1MB区块10分钟出块自然产生约7TPS。10分钟间隔保障网络安全，防止51%攻击，同时控制比特币发行速率。交易需6次确认（约1小时）以确保不可逆。相比Visa的高吞吐中心化系统，比特币优先考虑去中心化和安全性。扩容方案如BCH增大区块或闪电网络可提升TPS，但需权衡其他特性。7TPS体现了比特币"数字黄金"的设计哲学。

2025-11-26 13:49:38 972

原创 Web3 重入攻击：银行提款机的 “漏洞抢劫案”

《智能合约中的重入攻击漏洞分析》本文通过GoldBank案例揭示了Web3智能合约中的重入攻击漏洞。该漏洞源于合约在提款时先转账后更新余额的错误顺序，使黑客能通过恶意合约的回调函数重复提款。攻击者利用receive()函数在转账时再次调用提款函数，由于余额尚未清零，导致合约重复转账。防御措施包括：1）先更新状态再执行外部调用；2）使用ReentrancyGuard锁；3）限制外部调用gas量。

2025-11-26 11:01:40 492

原创 Web3-智能合约-零知识证明：不晒钱包也能进专属社区的秘密

摘要：Web3社交平台"星巢"通过零知识证明技术解决了NFT持有者身份验证中的隐私泄露问题。传统验证要求用户公开钱包地址，导致资产明细暴露和安全风险；而零知识证明允许用户在不透露钱包地址的情况下，通过数学验证证明NFT持有权。该技术满足完备性、可靠性和零知识性三大特性，已应用于隐私交易、资产确权等多个Web3场景，实现了"既证明身份又不泄露隐私"的平衡，成为Web3隐私保护的核心工具。

2025-11-25 11:34:01 1706 1

原创 Web3-智能合约-整数溢出攻击：“凭空造币”的秘密

《Web3安全警示：绿芽币合约整数溢出漏洞分析》摘要：小李开发的环保主题ERC20代币"绿芽币"因合约漏洞遭遇黑客攻击。虽然合约设定了100万枚总量上限和单次1万枚兑换限制，但未对整数溢出进行防护。黑客小张通过精心计算，利用uint256类型变量的溢出特性，仅用不到1分钱的ETH就绕过了总量限制检查，成功铸造99万枚代币并抛售，导致市场崩盘。该案例揭示了Web3开发中整数溢出漏洞的危害性，建议开发者采用SafeMath库、升级Solidity0.8+版本或严格限制输入范围等防护措施。智

2025-11-25 11:07:07 1010

原创使用多AI Agent赋能大数据资产治理-0章

本文探讨了数据资产管理中的重复建设与规范性问题，提出了一种基于LangGraph的Agent工作流解决方案。该方案结合规则与智能分类，从三个维度构建数据资产标签体系：OneData规范标签（包括模型/指标重复、跨层依赖等）、业务标签（业务域、主题域等）和访问分级标签（访问频率、就绪时间等）。系统支持多种数据源输入，包括元数据API、业务文档等，旨在通过智能化手段解决传统全规则或全Agent方法在灵活性、准确性方面的不足，提升数据资产管理效率。

2025-11-21 11:31:26 126

原创使用多AI Agent赋能大数据资产治理-总章

本文提出了一种基于LangGraph的数据资产标签自动化系统设计方案。系统采用"路由-并行-聚合"模式，整合规则引擎和AI Agent，通过确定性逻辑（血缘依赖、访问统计）与模糊推理（语义理解、业务归类）的协同处理，实现数据资产的智能标签化。方案详细定义了状态流转机制和工作流节点，包括知识库准备、规范处理、业务理解和访问分析四个并行分支，最终聚合输出完整标签。关键技术难点通过Schema Embedding、RAG增强和分位数统计等方法解决，并建议分阶段实施验证。

2025-11-21 11:20:05 253

原创怎样把MCTS算法应用于多Agent动态编排中

摘要：MCTS算法能高效解决多Agent动态编排问题，通过将多Agent协同转化为多分支搜索问题，采用"试错-反馈-优化"循环寻找最优策略。其优势在于无需穷举所有可能，支持动态环境调整，并平衡探索与利用。关键是将Agent状态、动作和奖励映射到搜索树节点，通过模拟与回溯优化决策。典型应用场景包括任务分配、工业机器人协作和故障恢复。针对多Agent特性需优化并行处理、动态探索率等，虽面临状态空间大等挑战，但通过状态抽象等方法可有效应对，实现复杂环境下的自适应协同。

2025-11-12 15:20:36 915

原创故事化场景讲清楚AI领域的MCTS算法的原理与应用场景

MCTS算法是一种适用于复杂决策问题的智能搜索方法，通过"选择-扩展-模拟-回溯"的循环机制逐步优化解决方案。该算法首先评估当前最优选项，然后扩展未探索的新分支，快速模拟其潜在价值，最后回溯更新决策依据。这种机制特别适合大模型文本生成、游戏AI决策等需在众多可能中快速找到较优方案的应用场景。MCTS的优势在于不需穷举所有选项，而是通过迭代学习不断修正策略，兼顾效率与效果，最终实现智能化的渐进优化。

2025-11-12 15:17:10 759

原创数据湖的 “双雄记”：Hudi 与 Iceberg 的诞生故事与使命抉择

摘要：Apache Hudi与Apache Iceberg分别针对数据湖的不同痛点提出解决方案。Hudi专为实时场景设计，通过时间线管理、双更新模式（CoW/MoR）和布隆索引等机制优化低延迟写入与增量更新，适用于用户画像、IoT等需要快速响应的业务。Iceberg则专注于批量分析的可靠性，采用四层元数据架构、快照隔离和字段ID等设计，确保查询效率、版本兼容和多团队协作，适合企业数仓、日志分析等场景。

2025-11-06 15:55:59 840

原创 Hudi和Iceberg的Specification规范角度详细比较异同点

摘要：Apache Hudi和Iceberg作为主流数据湖框架，在事务管理、版本控制和数据读写方面存在显著设计差异。Hudi采用扁平时间线+DeltaLog的元数据结构，通过Instant实现乐观锁和单阶段提交，更侧重流式更新；而Iceberg采用树状快照+清单文件结构，通过多阶段提交实现快照隔离，强调通用性和多引擎兼容性。两者在索引机制、Schema演进和数据更新方式上各有侧重：Hudi侧重主键索引和写时合并，Iceberg则提供更灵活的二级索引和强Schema兼容性。

2025-11-05 16:58:58 697

原创 hudi 的clustering的策略与业务场景

ApacheHudi的Clustering机制通过触发策略和执行策略优化数据布局。触发策略包括：1)基于文件数量(num_files)，解决高频小文件问题；2)基于文件大小(file_size)，均衡文件体积；3)基于时间间隔(time)，定期维护数据质量；4)手动触发(manual)应对特殊场景。执行策略则包含：1)合并范围控制（分区内或全局）；2)按业务字段排序提升查询效率；3)文件分组策略防止OOM；4)增量/全量模式选择。策略组合需匹配业务特点：IoT数据推荐num_files触发+设备ID排序，电

2025-11-05 14:41:26 976

原创 AI问数架构supersonic-源码导读

说明supersonic的主要接口架构，协作关系，各接口意义及对应文件位置

2025-11-04 17:49:48 1537

原创 AI问数架构supersonic简介

Supersonic是一款结合ChatBI（LLM驱动）和HeadlessBI（语义层驱动）的新型BI平台，通过语义层增强自然语言查询的可靠性。其架构基于SpringBoot3.x，支持多数据库和自定义扩展，优化了性能与效率。核心功能包括模型知识库、语义解析器、修正器等组件，实现从自然语言到SQL的精准转换。平台提供开箱即用的BI界面、多轮对话支持、三级权限控制和灵活的扩展机制，为业务用户和分析师提供高效的数据查询与分析体验。

2025-11-04 17:25:59 1247

搭建好的SSH框架

空空如也