大数据_苡~-CSDN博客

原创【claude skill系列 - 05】编写高质量Skill--触发条件与描述优化

本文详解 Claude Skill description 编写技巧，解决 Skill 触发失败、不准确等常见问题。系统讲解 description 优化的三大核心方法：明确功能定义、精准触发时机、限定适用范围。文章提供 30 个真实案例对比（20个优秀案例+10个反面教材），涵盖开发类、写作类、数据类、管理类等多种场景，帮助开发者快速掌握高质量 description 编写规范。深入讲解如何避免多个 Skill 之间的冲突、如何通过测试优化触发准确率、如何使用自然语言模式提升识别效果。

2026-02-06 09:00:00 615

原创【claude skill系列 - 04】Claude Skill 的四大骨架模式详解

本文系统讲解 Claude Skill 的四大骨架模式，帮助开发者根据需求选择合适的 Skill 架构。流程型适合有固定步骤的任务（如 Bug 修复），任务菜单型适合同领域多个独立功能（如前端开发工具箱），规范型适合定义标准约束（如代码规范检查），能力清单型适合综合角色能力（如数据分析助手）。每种模式提供完整结构模板和实战示例代码，包含模式选择决策树、场景匹配对照表、混合使用技巧。附 4 个实战练习帮助巩固理解，掌握后可快速设计出结构清晰的专业 Skill。

2026-02-04 19:36:51 1048

原创【claude skill系列 - 03】创建你的第一个 Claude Skill：从零到一实战

本文手把手教你创建第一个 Claude Skill，从文件结构到完整实战。详解 Skill 最小化结构（单文件 skill.md）和完整目录结构，深入讲解元数据编写技巧：name 命名原则、description 触发条件的三个关键问题。通过「代码注释生成器」完整实战项目，演示需求分析、结构设计、代码实现、打包上传、测试调试全流程。包含 10 个优秀 description 案例、常见问题排查方法、2 个扩展练习（Git Commit 生成器、API 文档生成器）。适合已了解 Skill 概念的开发者进阶学

2026-02-04 18:55:17 861

原创【claude skill系列 - 02】Claude Skill 是什么？10分钟快速入门指南

本文深入讲解 Claude Skills 核心概念，解决开发者重复输入提示词、AI 无长期记忆等痛点。系统对比 Prompt、Command、Skill 三种交互方式，详解渐进式披露机制如何实现多工具场景下 Token 消耗降低 78%。涵盖智能识别自动调用原理、四大核心优势、代码审查/文档生成/内容创作等实战应用场景。手把手演示如何启用官方 Skills 并体验自动触发效果，包含完整对比表格和真实案例。适合 Python、JavaScript、Go 开发者快速入门，10 分钟掌握一次配置永久生效的专业 A

2026-02-03 20:29:35 949

原创【claude skill系列 - 01】Claude Skill 系列专栏 - 大纲

本专栏系统讲解 Claude Skills 技术，涵盖 AI 能力模块化、智能触发机制、Token 优化等核心知识。通过 10 篇深度文章和 30+ 个实战案例，手把手教你创建代码审查、文档生成、内容创作等专业技能，掌握流程型、任务型、规范型、能力型四大设计模式。从基础概念到企业级应用，包含完整源码、调试技巧、MCP 集成方案，适合 Python、JavaScript、Go 等语言开发者。相比传统 Prompt 和 Command，Skills 实现永久生效、自动识别、成本降低 78%。

2026-02-03 19:37:04 561

原创 2026年AI编程革命：从Claude开始，掌握未来编程新趋势

本文深度解析2025年AI编程发展趋势，重点介绍Claude Code在200K上下文窗口、终端原生设计等方面的独特优势。针对国内开发者网络访问问题，推荐使用weelinking平台实现稳定高效的Claude编程体验。包含完整安装配置教程、实用编程技巧、个人职业规划建议，帮助程序员在AI时代保持竞争力。通过Claude+weelinking组合，可显著提升编码效率50-70%，是掌握未来编程趋势的必备技能。

2026-02-03 13:12:57 782

原创【claude】Claude CLI 详细实战指南：让AI成为你的终端编程助手

通过本文，我们深入探索了 Claude CLI 的各个方面：✅基础使用：安装、配置、基本命令✅实战应用：10+ 个真实开发场景✅高级功能：MCP 服务器、Hooks、规划模式✅效率技巧：提示词优化、上下文利用、快捷操作明确的指令：提供具体文件路径和期望行为善用上下文：利用对话记忆减少重复版本控制：始终使用 Git，方便回滚渐进式操作：复杂任务分步执行定期审查：不要盲目接受所有修改成本意识：选择合适的模型，控制 token 使用。

2026-02-03 12:55:22 920

原创【实践分享】利用 API 中转服务解决海外 AI 模型调用难题

摘要：本文介绍了API中转服务作为解决AI账号风控问题的技术方案。作者因账号停用转而测试Weelinking平台，该服务提供多模型聚合调用（如GPT-4、Claude等）、简化开发配置、稳定网络连接和按量计费。实践显示其接口统一、切换灵活，响应时间约200ms。建议选型时关注服务可靠性、数据隐私和合规性，推荐先试用免费额度评估适用性。

2026-01-30 09:00:00 654

原创终于发现宝藏！程序员低成本透明使用Claude Code的方案

揭秘开发者神器Weelinking：提供与官网完全一致的Claude原生体验。平台采用透明清晰的按量计价模式，杜绝黑盒消费，并支持3分钟极速上手，是兼顾顶级体验与高性价比的AI开发平台首选。

2026-01-27 22:17:54 781

原创 Fink CDC数据同步（六）数据入湖Hudi

Apache Hudi(简称：Hudi)使得您能在hadoop兼容的存储之上存储大量数据，同时它还提供两种原语，使得除了经典的批处理之外，还可以在数据湖上进行流处理。当开启change log mode，保留的最大commit数量。上面的查询方式是非流式查询，流式查询会生成一个flink作业，并且实时显示数据源变更的数据。将MySql映射表的数据插入hudi表，此时会生成一个flink任务。此时，执行select 语句就会生成一个flink 作业。，如果想消费所有数据，设置值为earliest。

2024-02-04 12:41:48 2157

原创 Fink CDC数据同步（五）Kafka数据同步Hive

通过flink sql client 建Kafka topic的映射表。如果没有切换hive方言建hive表会报错。

2024-02-04 12:26:44 1662

原创 Fink CDC数据同步（四）Mysql数据同步到Kafka

这里指定的Kafka topic会自动创建，也可以预先自行创建。将下列依赖包放在flink/lib。创建upsert-kafka 表。创建MySQL映射表。

2024-02-04 12:24:27 2866 4

原创 Fink CDC数据同步（三）Flink集成Hive

Flink利用Hive的MetaStore作为持久化的Catalog，我们可通过HiveCatalog将不同会话中的 Flink元数据存储到Hive Metastore 中。Flink打通了与Hive的集成，如同使用SparkSQL或者Impala操作Hive中的数据一样，我们可以使用Flink直接读写Hive中的表。

2024-02-03 22:38:29 2078

原创 Fink CDC数据同步（二）MySQL数据同步

和旧的快照读相比有以下优点：1. 并行读取 2. 支持checkpoint 3. 不需要锁表；当需要并行读取时，server-id需要设置数值范围，如5400-5408。当开启scan.incremental.snapshot.enabled时，建议指定server-id;connector 连接 MySQL 服务的最长等待超时时间。connector 创建 MySQL 连接的重试次数。MySql server 的主机名或者 IP 地址。连接 MySQL 数据库的用户名。连接 MySQL 数据库的密码。

2024-02-03 22:28:49 2679

原创 Fink CDC数据同步（一）环境部署

Apache Flink 是一个框架和分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行，并能以内存速度和任意规模进行计算。Flink CDC 是 Apache Flink 的一组源连接器，基于数据库日志的 Change Data Caputre 技术，实现了全量和增量的一体化读取能力，并借助 Flink 优秀的管道能力和丰富的上下游生态，支持捕获多种数据库的变更，并将这些变更实时同步到下游存储。

2024-02-03 22:21:57 5160

原创 ClickHouse安装部署【非常详细】

本文非常详细地记录了clickhouse安装部署的过程，仅供参考~

2022-01-07 18:18:14 54664 12

原创数据质量之评估维度及检测项

数据质量之评估维度及检测项数据质量直接影响数据的价值，这里主要介绍一些业界主流的六大评估维度，分别是完整性，唯一性（独特性），一致性，准确性，有效性，时效性。以及我们在设计DQC的时候可以用什么检查规则取检测。一、完整性数据的每一项都应被记录，这样数据才完整。我们可以通过对字段是否为空或者是否为空字符串进行检测数据的完整性-- 空值检测select count(1) as cnt from ${db}.${table} where (${filter}) and (${field} is nul

2021-09-29 20:14:21 5126

原创【claude skill系列 - 06】05_Claude_Skill实战案例精选(上)--开发类技能

本文提供 5 个可直接使用的 Claude Skill 开发类实战案例，包含完整的 skill.md 代码和使用示例。涵盖代码审查专家（支持多维度审查：规范、逻辑、性能、安全、可维护性）、API 文档生成器（自动生成标准化接口文档）、单元测试生成器（覆盖正常/异常/边界三大场景）、Git Commit 规范生成器（符合 Conventional Commits 规范）、性能优化顾问（系统化定位瓶颈并给出方案）。每个案例都提供触发条件、输出格式、使用示例，可直接复制使用或根据需求修改。

2026-02-06 14:00:00 1342

原创高性价比且透明的AI编程助手接入方案——Weelinking使用评测

本文旨在分享一个定价透明、稳定性高的AI编程助手接入平台——Weelinking。将详细介绍其核心优势、计费模式、技术支持以及快速上手指南，为开发者选择一个可靠、经济的Claude等大模型API中转服务提供参考。

2026-02-02 09:55:12 970

原创 CDGA数据治理工程师考试部分真题二

CDGA（Certified Data Governance Associate，数据治理工程师）是国际数据管理协会（DAMA）中国分会推出的权威认证，是数据治理领域的专业证书。D. 组织中的每个人都应在保护组织的未来方面发挥作用。B. 文件管理包括文件和档案的整个生命周期控制。B. 确保结构化和非结构化数据之间的整合能力。A. 确保高效采集和使用非结构化数据和信息。C. XML整合结构化数据到非结构化数据库。B. 存储行为不包括整合数据以提升价值。A. 数据仓库存储来自其他系统的数据。

2025-04-16 11:19:58 1039

原创 CDGA数据治理工程师考试部分真题一

A. 架构是构建一个系统的艺术和科学，以及在此过程中形成的成果系统本身。B. 架构是对组件要素有组织的设计，旨在优化整个结果或系统的功能、性能、可行性、成本和用户体验C. 数据架构包括不同层级的模型、定义、数据流，这些通常被称为数据架构的构件D. 数据架构活动，包括影响企业数据架构的不同角色之间的协作、思维方式和技能。

2025-04-16 11:02:49 963

原创 CDGA考点

是国际数据管理协会（DAMA）中国分会推出的权威认证，旨在培养数据治理领域的专业人才。考试教材《DAMA数据管理知识体系指南（第二版修订版）》100道单选题，100分钟答题时间，60分及格。以下是教材各章节的考点。

2025-04-16 10:10:13 782

原创 DAMA的CDGA、CDGP认证

CDGA（数据治理工程师）和CDGP（数据治理专家）是DAMA国际与中国分会联合推出的权威认证，旨在培养数据治理领域的专业人才。CDGA侧重基础理论与实践技能，CDGP则聚焦高阶战略与复杂问题解决能力。2025年第二季度起，考试全面启用新版教材《DAMA数据管理知识体系指南（第二版修订版）》，内容更贴合行业前沿需求。

2025-04-15 11:39:16 1439 4

原创 Hive SQL业务场景：求平台最高峰同时直播人数

现有某直播平台各主播登陆明细表：主播ID，上线时间，下线时间。现在需要求出该直播平台最高峰期同时在线主播人数。

2024-10-11 18:39:22 413

原创 Hive SQL业务场景：连续5天涨幅超过5%股票

现有一张股票价格表 dwd_stock_trade_dtl 有3个字段分别是：股票代码(stock_code),日期(trade_date)，收盘价格(closing_price)。请找出满足连续5天以上（含）每天上涨超过5%的股票，并给出连续满足天数及开始和结束日期。备注：不考虑停牌或其他情况，仅仅关注每天连续5天上涨超过5%的股票。

2024-09-27 19:06:39 1187

原创数据管理能力成熟度评估模型DCMM

DCMM（Data Management Capability Maturity Assessment Model）数据管理能力成熟度评估模型是由中国国家标准化管理委员会于2018年3月15日发布，于2018年10月1日起实施的我国首个数据管理领域国家标准。该标准把组织内部数据能力划分为八个重要组成部分，描述了每个组成部分的定义、功能、目标和标准。本标准适用于信息系统的建设单位，应用单位等进行数据管理时候的规划，设计和评估。也可以作为针对信息系统建设状况的指导、监督和检查的依据。

2024-09-04 17:02:53 1624

原创标签画像体系应用实践

标签画像体系应用是一种利用用户标签数据实现个性化推荐和精准营销的方法。通过整合和清洗数据、画像建模和智能推荐系统开发等步骤，可以解决数据碎片化、缺乏精准推荐等问题。通过案例分析可以看出，标签画像体系应用能够帮助企业更好地了解用户需求，提供个性化的服务，提升竞争力和用户满意度。

2024-03-14 11:34:57 1410

原创【最全最经典SQL题】五产生连续数值

构造两个临时表一个4一个6，通过笛卡尔积可以构造24行记录扩展：生产过去2年的年月字段FROM () xcxc。

2024-03-12 15:47:41 891

原创【最全最经典SQL题】四窗口大小控制

从事数仓，数据开发的同学应该知道，日常工作中主要要用到SQL去实现业务各种数据需求。本系列【最全最经典SQL题】将列举日常工作或者笔试面试中频繁、经典的业务场景并通过SQL去实现。【最全最经典SQL题】四窗口大小控制【最全最经典SQL题】五数据合并与拆分【最全最经典SQL题】六数据扩充与收缩【最全最经典SQL题】七容器【最全最经典SQL题】八时间序列【最全最经典SQL题】九非等值连接更新中........

2024-03-12 14:58:26 545

原创【最全最经典SQL题】三累计求值

从事数仓，数据开发的同学应该知道，日常工作中主要要用到SQL去实现业务各种数据需求。本系列【最全最经典SQL题】将列举日常工作或者笔试面试中频繁、经典的业务场景并通过SQL去实现。【最全最经典SQL题】三累计求值【最全最经典SQL题】四窗口大小控制【最全最经典SQL题】五数据合并与拆分【最全最经典SQL题】六数据扩充与收缩【最全最经典SQL题】七容器【最全最经典SQL题】八时间序列【最全最经典SQL题】九非等值连接更新中........

2024-03-12 09:56:24 705

原创【最全最经典SQL题】二排名取它值

从事数仓，数据开发的同学应该知道，日常工作中主要要用到SQL去实现业务各种数据需求。本系列【最全最经典SQL题】将列举日常工作或者笔试面试中频繁、经典的业务场景并通过SQL去实现。【最全最经典SQL题】二排名取它值【最全最经典SQL题】三累计求值【最全最经典SQL题】四窗口大小控制更新中........本系列将提供建表语句、数据、解题SQL代码，大家动动小手指就能看到效果以便理解，为了方便大部分同学实操，默认采用MySQL的SQL，如Hive有区别的会注明一下。

2024-03-11 14:32:07 679 1

原创【最全最经典SQL题】一行列转换

从事数仓，数据开发的同学应该知道，日常工作中主要要用到SQL去实现业务各种数据需求。本系列【最全最经典SQL题】将列举日常工作或者笔试面试中频繁、经典的业务场景并通过SQL去实现。本系列不定期更新，内容如下：【最全最经典SQL题】一行列转换【最全最经典SQL题】二排名取它值【最全最经典SQL题】三累计求值【最全最经典SQL题】四窗口大小控制更新中........

2024-03-11 13:22:14 963

原创 dolphinscheduler海豚调度（五）seatunnel案例

seatunnel作为新一代流行的数据集成工具，其功能非常强大且简单易用，今天演示一下如何通过dolphinscheduler创建并运行seatunnel任务本次dolphinscheduler和seatunnel均部署在同一机器上的单机版本。

2024-03-06 18:51:49 6121 4

原创 Hive SQL 开发指南（三）优化及常见异常

使map的输出数据更均匀的分布到reduce中去，是我们的最终目标。由于Hash算法的局限性，按key Hash会或多或少的造成数据倾斜。大量经验表明数据倾斜的原因是人为的建表疏忽或业务逻辑可以规避的。在此给出较为通用的步骤：1、采样log表，哪些user_id比较倾斜，得到一个结果表tmp1。由于对计算框架来说，所有的数据过来，他都是不知道数据分布情况的，所以采样是并不可少的。2、数据的分布符合社会学统计规则，贫富不均。倾斜的key不会太多，就像一个社会的富人不多，奇特的人不多一样。

2024-03-05 15:06:43 2362 1

原创 MySQL 新增用户及权限分配

2024-03-05 12:08:08 2081

原创 Hive SQL 开发指南（二）使用（DDL、DML，DQL）

建表注意事项CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在，则抛出异常；用户可以用 IF NOT EXIST 选项来忽略这个异常EXTERNAL 关键字可以让用户创建一个外部表，在建表的同时指定一个指向实际数据的路径（LOCATION）LIKE 允许用户复制现有的表结构，但是不复制数据COMMENT可以为表与字段增加描述ROW FORMAT用户在建表的时候可以自定义 SerDe 或者使用自带的 SerDe。

2024-03-01 14:18:50 1777

原创 Hive SQL 开发指南（一）数据类型及函数

在大数据领域，Hive SQL 是一种常用的查询语言，用于在 Hadoop上进行数据分析和处理。为了确保代码的可读性、维护性和性能，制定一套规范化的 Hive SQL 开发规范至关重要。本文将介绍 Hive SQL 的基础知识，并提供一些规范化的开发指南，帮助您高效地编写 Hive SQL 查询。本系列分为Hive SQL 开发指南（一）数据类型及函数Hive SQL 开发指南（二）使用（DDL、DML，DQL）Hive SQL 开发指南（三）优化及常见异常。

2024-03-01 10:54:14 1930

转载当我们聊数据质量的时候，我们在聊些什么？

随着大数据行业的深入发展，数据质量越来越成为一个绕不开的话题，那当大家在聊数据质量的时候，通常会聊什么呢？从什么是数据质量开始。

2024-02-29 10:18:56 220

原创数仓模型设计方法论

规范定义主要定义派生指标体系。包括原子指标、修饰词修饰词时间周期和派生指标。

2024-02-28 14:49:37 2288

原创 dolphinscheduler海豚调度（四）钉钉告警

在之前的博文中，我们已经介绍了DolphinScheduler海豚调度的基本概念和工作流程，以及Shell任务和SQL任务的实践。今天，让我们来学习DolphinScheduler中的另一个重要功能：钉钉告警。

2024-02-28 10:19:13 1996 1

DDD领域驱动设计day03.pdf

构建企业级数仓-Hadoop可行性分析报告.docx

DDD领域驱动设计day01.pdf

DDD领域驱动设计day02.pdf

空空如也