自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2657)
  • 收藏
  • 关注

原创 大数据领域数据服务:推动数据创新的力量

当企业积累了PB级用户行为、交易记录、设备日志等数据后,常面临一个尴尬:数据量大但用不起来——业务部门要数据得找IT提需求,等 weeks 才能拿到报表;分析结果总滞后,无法支撑实时决策;不同系统数据口径打架,“数据孤岛”成了创新绊脚石。本文将聚焦“数据服务”这一关键解决方案,覆盖从概念原理到实战落地的全链路,帮助读者理解如何通过数据服务激活数据资产,推动业务创新。本文将按“概念→原理→实战→应用”的逻辑展开:先通过生活化故事引出数据服务;再拆解核心概念(数据治理、湖仓一体、API服务);

2026-01-07 01:24:28 157

原创 剖析大数据领域Doris的元数据管理系统

强一致性:Braft协议保证所有FE节点的元数据一致;高可用性:多副本存储+快速Leader选举,保证99.99%以上的可用性;高并发读:Observer节点+内存缓存,支撑每秒数千次的元数据读请求;低延迟写:WAL顺序写+异步Flush,保证写操作的低延迟;可扩展性:线性扩展Observer节点提升读吞吐量,线性扩展Follower节点提升高可用性。

2026-01-07 00:33:19 355

原创 HBase数据模型详解,解锁大数据存储奥秘

以上就是关于HBase数据模型的详细分析,希望能为读者提供全面且深入的技术知识。

2026-01-06 23:42:10 581

原创 《全面剖析:AI应用架构师阐述人机协作对未来工作的深度变革》

在科技飞速发展的当下,人工智能(AI)已不再是科幻小说中的幻想,而是切实融入了我们生活与工作的方方面面。从智能手机中的语音助手,到工厂里的自动化生产线,AI的身影无处不在。人机协作,作为AI发展衍生出的关键模式,正逐渐成为重塑未来工作的核心力量。想象一下,过去的工作场景,人们单打独斗或是依靠简单的工具协作。而如今,随着AI的加入,工作模式正经历着翻天覆地的变化。就如同工业革命时期,机器的出现彻底改变了生产方式,人机协作也将在未来工作中引发一场新的“生产革命”。

2026-01-06 22:51:01 416

原创 提示工程架构师如何解决提示内容的冗余问题?

本文将从提示工程架构师的视角,系统拆解提示内容冗余的本质成因,构建"诊断-设计-治理-优化"的全流程解决方案。我们将深入探讨如何通过结构化设计、模块化拆分、动态生成机制和工具链建设,从根源上消除冗余,同时确保提示的灵活性和信息完整性。在多轮对话场景中,逐轮保留完整对话会迅速耗尽token。架构师需设计"上下文压缩器",将早期对话压缩为摘要,仅保留关键信息。示例:基于LLM的动态摘要生成"""将历史对话压缩为摘要,控制在max_tokens以内"""

2026-01-06 21:54:45 717

原创 大数据领域数据交易的商业模式探讨

在数字化浪潮下,数据如同新时代的石油,源源不断地从各个角落涌出。我们的每一次网络搜索、每一笔线上交易、每一次社交媒体互动,都在产生数据。据统计,全球每天产生的数据量已达到ZB级别(1ZB = 10亿TB)。如此庞大的数据蕴含着巨大的价值,它能够帮助企业精准洞察市场需求、优化生产流程,助力政府提升决策科学性、改善公共服务。数据交易作为释放数据价值的关键一环,重要性日益凸显。想象一下,一家小型电商企业,自身数据有限,难以精准把握消费者喜好。

2026-01-06 21:03:38 106

原创 数据中台中的数据服务流量控制策略

随着企业数字化转型的深入,数据中台已成为支撑业务创新的核心基础设施。数据中台通过标准化的数据服务接口(如API、SDK)向业务系统提供数据查询、分析、建模等能力,其服务稳定性直接影响业务连续性。然而,数据服务面临的流量波动(如突发查询、恶意攻击、依赖服务故障)可能导致系统过载、响应延迟甚至服务雪崩。本文系统梳理数据中台流量控制的核心策略,涵盖算法原理、架构设计、工程实现与行业实践,帮助技术团队构建健壮的数据服务治理体系。背景部分定义核心概念与术语剖析数据服务流量控制的核心原理与架构模型。

2026-01-06 20:02:14 476

原创 深度好文:自动化与智能化融合在AI应用架构中的ROI分析,架构师必看!

要计算融合架构的ROI,需先明确当前AI系统的资源浪费源人力成本浪费:80%的AI工程师时间花费在数据清洗、模型调参等重复任务上(McKinsey,2022);算力资源浪费:云GPU实例的平均利用率仅为20%-30%(AWS,2023),源于静态资源分配无法匹配动态负载;迭代效率浪费:模型从开发到部署的周期平均为1-2周,无法应对业务的快速变化(如推荐系统的实时更新需求)。术语定义核心价值自动化(Automation)基于规则或脚本的重复性任务执行,无需人工干预降低人力/时间成本。

2026-01-06 19:05:59 154

原创 Doris在在线教育中的应用:学习行为分析

随着在线教育行业的快速发展,用户学习行为数据呈现爆发式增长。每天产生的课程观看记录、答题日志、互动数据等规模可达数十亿条,传统数据处理工具在实时性、扩展性和分析效率上面临严峻挑战。实时/准实时学习行为数据接入与存储多维度用户学习画像构建学习效果预测与异常行为检测基于行为数据的个性化推荐系统核心概念:解析Doris架构与学习行为数据模型技术实现:涵盖数据采集、存储、分析的全链路技术方案实战案例:基于真实场景的代码实现与效果验证应用拓展:探讨未来发展趋势与技术挑战。

2026-01-06 02:02:57 436

原创 大数据领域 HDFS 与其他存储系统的对比分析

在大数据时代,数据规模呈指数级增长,数据类型从结构化扩展到非结构化、半结构化,存储系统的选择直接影响数据处理效率、成本和可靠性。HDFS 作为 Hadoop 生态的核心组件,是早期分布式存储的标杆,但随着云计算、数据湖、湖仓一体等技术的发展,对象存储(如 S3)、分布式块存储(如 Ceph)、数据湖存储(如 Delta Lake)等新型系统不断涌现。HDFS 的技术架构如何支持大规模数据存储?与对象存储、块存储相比,HDFS 的核心优势和局限性是什么?

2026-01-06 01:01:34 237

原创 区块链预言机数据可靠性:Agentic AI+提示工程如何解决喂价造假问题?

若服务DeFi借贷:可靠性目标是“喂价偏差≤1%,全年 downtime≤0.1%”;若服务NFT市场:可靠性目标是“现实资产价格的准确性≥95%,更新延迟≤10秒”。区块链的价值在于“去中心化、不可篡改”,但如果连接链内外的“预言机”不可靠,整个生态的价值都会被消解。Agentic AI+提示工程不是“终点”,却是“通向更可靠预言机的必经之路”——它让预言机从“被动的数据线”变成“主动的守护者”。如果你是开发者,不妨尝试用LangChain搭建一个简单的Agentic AI预言机;

2026-01-06 00:10:25 473

原创 Doris与其他大数据数据库的性能对比分析

在大数据时代,有各种各样的数据库可供选择,不同的数据库适用于不同的场景。我们的目的是通过对Doris和其他大数据数据库的性能对比分析,帮助大家更好地了解它们的特点,以便在实际项目中做出更合适的选择。这里对比的其他大数据数据库主要包括HBase、ClickHouse等。首先,我们会介绍一些核心概念,让大家对Doris和其他相关大数据数据库有一个基本的认识。然后,详细分析它们的核心算法原理和具体操作步骤。接着,通过数学模型和公式进一步阐述性能相关的指标。之后,给出项目实战案例,帮助大家更好地理解。

2026-01-05 23:19:16 455

原创 字节_阿里大数据面试:数据降维考点总结,看完这篇稳了

基础概念:为什么需要降维?降维的本质是什么?有哪些分类?核心算法:PCA、LDA、t-SNE、UMAP等常考算法的原理推导、优缺点、参数细节;对比分析:线性vs非线性、监督vs无监督降维的区别,不同算法的适用场景;面试实战:高频考点问答思路、代码实现示例、真实面试题解析。

2026-01-05 22:23:03 349

原创 如何利用数据中台提升大数据领域的竞争力

数据中台不是一个具体的产品或工具,而是企业级的数据管理与服务平台。整合:将分散在各个业务系统、数据库、日志中的数据集中存储;治理:通过元数据管理、数据质量监控等手段,提升数据的可靠性;服务:将数据转化为可被业务直接调用的API、报表、标签等服务;复用:让不同业务线共享数据服务,避免重复开发。简单来说,数据中台是“数据的供应链”——从“数据采集”到“数据交付”的全流程标准化,让业务团队像“取快递”一样方便地获取数据。

2026-01-05 21:31:51 754

原创 AI原生应用开发必知:知识图谱的七大核心算法

在AI原生应用开发的世界里,知识图谱就像是一个超级大宝藏。我们的目的就是要深入挖掘这个宝藏,了解其中七大核心算法的奥秘。通过这篇文章,我们会详细介绍这些算法的原理、如何操作以及它们在实际中的应用。范围涵盖了从基础概念到实战案例,希望能让大家对知识图谱的核心算法有全面的认识。接下来,我们会先介绍一些相关的术语,然后用有趣的故事引出核心概念,解释这些概念以及它们之间的关系,给出原理示意图和流程图。接着会详细讲解七大核心算法的原理和操作步骤,结合数学模型和实际案例。

2026-01-05 20:40:42 457

原创 大数据架构中的机器学习平台集成方案

某电商平台原有推荐系统采用批处理方式,每天训练一次模型,推荐结果延迟高达24小时,导致用户点击率低(约8%)。为了提高推荐效果,团队决定搭建实时推荐系统,要求延迟不超过1秒,点击率提升10%以上。我是张三,资深大数据工程师,专注于大数据与ML集成领域,有8年大型项目经验(曾参与某电商实时推荐系统、某金融风控模型平台的搭建)。欢迎关注我的公众号“大数据与AI”,分享更多技术实践。

2026-01-05 19:39:04 515

原创 数据中台中的数据服务编排技术

数据服务编排,是指通过流程定义语言(或可视化工具),将多个原子数据服务按照一定的逻辑顺序组合起来,形成一个具有完整业务功能的复合数据服务的过程。聚焦数据:更关注数据的流动、转换和整合,而非业务流程的审批、跳转;服务导向:以数据服务为核心节点,而非抽象的“任务”;实时性要求高:很多数据服务编排需要支持实时或准实时执行(比如推荐系统中的实时用户画像更新)。数据服务编排是数据中台的“神经中枢”,它将分散的原子数据服务组合成满足业务需求的复合数据服务,解决了数据服务的“碎片化”问题。业务驱动。

2026-01-05 02:30:55 814

原创 大数据时代:数据治理的10个核心要点解析

在当今这个大数据时代,我们每天都会产生海量的数据。这些数据就像一座巨大的宝库,但如果不进行有效的治理,它们就会变成一堆杂乱无章的垃圾。本文的目的就是帮助大家了解数据治理的10个核心要点,掌握如何对数据进行有效的管理和利用,范围涵盖了数据治理的各个方面,从数据质量到数据安全,从数据架构到数据标准等。

2026-01-05 01:34:57 331

原创 揭秘大数据领域特征工程的核心要点

现在,我们把所有步骤串起来,形成一条特征工程流水线fill:#333;important;important;fill:none;color:#333;color:#333;important;fill:none;fill:#333;height:1em;原始数据数据预处理:清洗缺失/重复/异常特征提取:从原始数据提炼属性特征变换:标准化/归一化/编码特征选择:选对模型有用的特征最终特征机器学习模型一句话总结把生数据“洗干净→切小块→调味道→挑有用的”,然后喂给模型。

2026-01-05 00:43:46 709

原创 接手3个失败提示工程项目后,我总结出架构师必备的风险管理清单(附模板)

架构师的价值,不是解决多难的技术问题,而是提前避免问题发生。风险管理不是“额外的负担”,而是架构设计的一部分——写代码前,先想“这个设计有什么风险?上线前,先查“监控系统是否覆盖了核心风险指标?失败后,先做“无责复盘,找出根本原因”。

2026-01-04 23:47:32 445

原创 揭秘AI应用架构师企业AI转型路线图的风险管理

企业进行AI转型旨在实现业务流程自动化、提高决策准确性、增强客户体验以及挖掘新的商业机会。例如,在制造业中,AI可用于预测性维护,提前发现设备故障,减少停机时间;在金融领域,AI能助力风险评估,更精准地识别潜在风险。通过AI转型,企业有望在市场竞争中脱颖而出,获得可持续发展的动力。

2026-01-04 22:56:21 545

原创 企业数据仓库设计踩坑实录:AI应用架构师花300万买的教训,全分享

面向主题:围绕“销售”“库存”“用户”等业务主题组织数据,而不是按“ERP系统”“CRM系统”等源系统划分;集成性:把不同源系统的异构数据(比如Excel的订单、MySQL的用户、POS的支付)清洗、转换后,统一成一致的格式;稳定性:数据一旦存入,就不会被修改(比如2023年的订单数据,永远是2023年的样子);随时间变化:保留历史数据(比如近3年的订单),支持“趋势分析”(比如对比今年和去年的双11营收)。

2026-01-04 22:05:13 722

原创 医疗健康领域的大数据运营:精准医疗的数据支撑

你是否听说过“同一种癌症,不同患者治疗方案天差地别”?这背后是精准医疗的核心——根据个体基因、环境、生活习惯制定个性化方案。而支撑这一切的“幕后英雄”,正是医疗健康领域的大数据运营。本文将覆盖医疗大数据的全生命周期(采集→清洗→分析→应用),以及其与精准医疗的深度绑定关系,帮助读者理解“数据如何变成救命的钥匙”。

2026-01-04 21:14:04 532

原创 大数据领域数据目录与人工智能的融合应用

本文将从数据目录的核心痛点出发,拆解人工智能(AI)如何重构数据目录的关键环节(元数据管理、数据发现、数据关系挖掘、数据理解),并通过可落地的实战案例(基于开源工具的智能数据目录原型),展示AI与数据目录融合的具体路径。传统数据目录的痛点:元数据维护难、数据发现低效、关系理不清;AI融合的核心方向元数据自动生成(NLP);智能数据发现(语义向量+余弦相似度);数据关系挖掘(知识图谱);数据质量监控(机器学习);实战成果。

2026-01-04 20:17:47 612

原创 数据交易中的数据挖掘与机器学习应用

在"数据资产入表"成为企业新战略的今天,数据交易市场规模已突破千亿(据《中国数据要素市场发展报告》2023)。本文将聚焦数据交易的核心技术环节——如何用数据挖掘和机器学习提升数据交易的价值密度,覆盖从数据清洗到模型落地的全流程,帮助读者理解技术如何驱动数据从"原材料"到"商品"的质变。本文将按照"概念理解→关系拆解→技术原理→实战案例→未来展望"的逻辑展开,用"菜市场"贯穿全文类比,确保每个技术点都能在生活中找到对应场景。数据交易:像菜市场卖菜一样,把数据作为商品进行买卖(买方:需要数据的企业;

2026-01-04 19:26:38 622

原创 大数据领域数据复制的负载均衡策略

数据复制是大数据系统实现高可用、容错和性能优化的核心机制,但不当的副本放置会导致节点负载不均、网络拥堵等问题,严重影响系统效率。本文从第一性原理出发,系统推导负载均衡的理论框架,结合架构设计实现机制和真实案例,深入分析大数据领域数据复制的负载均衡策略。内容覆盖静态/动态策略、机器学习驱动的预测模型、博弈论优化等多种范式,同时探讨了安全、伦理和未来演化方向。无论你是入门级开发者还是资深架构师,都能从本文中获得可落地的实践指南和深度的理论洞察。self.node_id = node_id # 节点ID。

2026-01-04 02:28:45 361

原创 提示工程架构师的AI秘诀:让提示互动性翻倍的3个方法

你是否遇到过这样的情况?用AI生成内容时,明明写了详细的提示,AI却像没听懂似的,回应生硬、偏离需求;或者对话中提到的信息,下一轮就被“遗忘”,需要反复解释;甚至想让AI结合图片或语音互动,却不知道该怎么组织提示?传统提示往往是“单向指令”,缺乏“互动性”——AI无法记住上下文、无法接收你的反馈、无法处理多模态信息,导致对话像“鸡同鸭讲”。上下文记忆机制动态反馈循环多模态交互增强。它们能将单向的“指令-回应”升级为双向的“对话-协作”,让AI更懂你的需求。本文将用实战代码和案例演示。

2026-01-04 01:27:23 510

原创 ClickHouse 为大数据领域的舆情分析提供支持

ClickHouse 是俄罗斯的 Yandex 公司开源的面向在线分析处理(OLAP)的列式数据库管理系统。它旨在提供高效的数据存储和查询性能,特别适合处理大规模数据集的分析查询。本文详细介绍了如何利用 ClickHouse 为大数据领域的舆情分析提供支持。从问题背景与动机出发,阐述了大数据舆情分析的重要性以及现有解决方案的局限性,进而引入 ClickHouse 并介绍其核心概念。

2026-01-04 00:25:58 954

原创 大数据特征工程:如何处理文本与数值混合特征

在大数据场景中,单一类型的特征几乎不存在。推荐系统:用户的浏览次数(数值)+搜索关键词(文本)+(文本);情感分析:产品的评分(数值)+评论内容(文本)+销量(数值);欺诈检测:用户的交易金额(数值)+收货地址(文本)+设备型号(文本)。这些混合特征包含了不同模态的信息:数值特征能直接反映“量”的大小(比如购买次数越多,用户粘性越高),文本特征能反映“质”的特征(比如评论中的“太差了”直接表达负面情绪)。

2026-01-03 23:24:35 692

原创 智能预测性维护AI系统效率提升:AI应用架构师的实战技巧

在工业4.0时代,智能预测性维护(PDM)已成为企业降低成本、提升设备利用率的“核心武器”。但很多企业的PDM系统却陷入了“看起来美好,用起来鸡肋”的困境——数据处理慢、推理延迟高、资源占用大,根本无法满足工业场景的实时需求。作为AI应用架构师,我们的任务不是“堆砌模型”,而是“设计高效的系统”。本文将从特征工程优化模型轻量化加速边缘-云协同架构三大核心维度,结合真实案例和代码实现,拆解PDM系统效率提升的实战技巧。读完本文,你将学会如何把“慢半拍”的预测系统打造成“未卜先知”的工业大脑。被动维护。

2026-01-03 22:23:13 905

原创 大数据分片:如何优化你的数据分布策略?

大数据分片是指将一个庞大的数据集按照一定的规则分割成多个相对较小的子集,每个子集称为一个分片(shard)。这些分片可以存储在不同的物理节点上,例如不同的服务器、存储设备等。通过分片,系统可以并行处理各个分片的数据,从而提高数据处理的效率。

2026-01-03 21:32:05 774

原创 日志数据处理实战:大数据领域的核心技术解析

日志处理不是"技术炫技",而是**"读懂系统的语言"的能力**——就像医生通过听诊器听心跳、通过化验单看病情,运维工程师通过日志看系统的健康状况,产品经理通过日志看用户的真实需求。希望这篇文章能帮你搭建起日志处理的"知识金字塔",从"看不懂日志"到"用好日志",最终成为"能听懂系统语言的人"。“日志不会说谎,说谎的是不会处理日志的人”——愿你在大数据的世界里,用日志找到问题的根源,用数据创造业务的价值。(全文完)

2026-01-03 20:30:41 565

原创 AI应用架构师案例复盘:金融AI智能体项目延期原因分析——智能化投资决策系统架构设计的教训

我是林宇,资深AI应用架构师,拥有8年金融科技项目经验,专注于AI与业务的结合。曾主导过3个大型金融AI项目(智能化投资决策、智能风控、智能投顾),踩过无数坑,也总结了很多经验。我的公众号是"AI架构师笔记",定期分享AI项目的架构设计与踩坑教训。(全文完)字数:约12000字。

2026-01-03 19:34:26 876

原创 大数据领域数据网格:实现数据价值最大化的途径

Zhamak Dehghani对数据网格的定义是:一种分布式数据架构,将数据所有权下放到业务域(Domain),通过“数据即产品”的理念运营数据,用自助服务平台赋能域团队,用联邦治理平衡管控与灵活。组织上:从“IT主导”转向“业务域主导”——每个业务域(如用户域、订单域)负责自己的数据产品。技术上:从“集中式平台”转向“自助服务平台”——给域团队提供工具,让他们不用依赖IT就能构建数据产品。我是李阳,资深大数据架构师,10年大数据经验,曾参与多个大型数据网格项目(电商、金融、零售)。

2026-01-03 02:41:40 501

原创 叹为观止!提示工程在智能艺术创作中的神级应用

提示工程,本质是**“向AI传递任务目标与约束条件的结构化语言设计”。如果把AI比作一个你说“给我做道菜”(模糊提示),它可能给你炒土豆丝;你说“给我做一道“蒜香黄油煎大虾”,用鲜活的基围虾,黄油要融化成金褐色,撒现磨的黑胡椒和欧芹碎”(结构化提示),它会给你做一道米其林级别的菜。AI艺术创作的提示工程,就是这样一份“给AI的菜谱”——你写得越精准、越有结构,AI的输出越接近你的预期。负Prompt,就是**“告诉AI‘不要什么’”**——它像一把“橡皮擦”,把AI可能犯的错误提前擦掉。

2026-01-03 01:45:22 501

原创 构建可扩展的大数据领域数据架构

数据量从100GB增长到100TB时,架构如何“无痛”扩容?实时数据(如直播弹幕)与离线数据(如日志)如何统一处理?业务方频繁提出新分析需求时,架构如何快速响应?本文将按照“问题背景→核心概念→设计原理→实战案例→未来趋势”的逻辑展开,重点用生活化比喻降低理解门槛,用代码和流程图还原真实设计场景。数据湖:存原始数据的“万能仓库”(支持所有类型)。数据仓库:存加工数据的“精品货架”(面向分析优化)。数据中台:协调湖仓的“智能中枢”(解决数据孤岛)。可扩展性。

2026-01-03 00:43:45 1034

原创 《企业AI研发标准,AI应用架构师引领企业变革的利器》

元数据管理:记录数据的来源、格式、字段含义(比如“user_id”是用户唯一标识,类型是字符串)。推荐工具:Apache Atlas、AWS Glue。数据质量校验:确保数据“完整、准确、一致”。比如:核心字段(如user_id)非空且唯一;数值字段(如订单金额)在合理范围(比如≥0);时间字段格式统一(如实战示例:用Great Expectations做数据质量校验import great_expectations as ge# 加载用户行为数据。

2026-01-02 23:47:44 759

原创 智能库存优化AI系统架构设计:如何实现库存优化策略的A_B测试架构?

处理单元(Unit of Treatment, UOT):接受不同库存策略的最小业务实体(如“SKU-仓库”组合,记为(s, w)实验分组对照组(Control Group):使用现有基准策略(如传统EOQ);实验组(Treatment Group):使用待测试的新策略(如ML驱动的动态ROP);核心指标成本类:库存持有成本率(Inventory Carrying Cost Rate)、总库存成本(Total Inventory Cost = 持有成本+缺货成本+过时成本);

2026-01-02 22:56:18 930

原创 提示工程日志聚合分析从0到落地:架构师的实战经验分享

想象一下,你正置身于一个数据如洪流般涌来的场景。在现代软件开发和运维的世界里,每天都会产生海量的提示工程日志。这些日志就像是散落一地的拼图碎片,它们记录着系统运行过程中的点点滴滴,从用户与系统的交互提示,到算法内部的参数调整反馈。然而,这些碎片式的日志如果不加以有效的整合和分析,就毫无价值可言。比如,一个在线教育平台的智能辅导系统,它通过提示工程引导学生进行学习。每天,成千上万条提示日志被生成,记录着学生对不同学习提示的响应,像是否点击了提示链接、是否按照提示完成了任务等。

2026-01-02 22:00:21 486

原创 大数据溯源与数据质量:如何建立闭环治理体系

数据溯源(Data Provenance)是记录数据从"产生→传输→处理→存储→应用"全生命周期运动轨迹,并追溯其来源、变更历史和上下文信息的过程。通俗说,就是给每一份数据办一张"身份证"(唯一标识),再画一幅"家谱"这份数据从哪里来?(数据源、采集时间、采集方式)经过了哪些处理?(清洗规则、转换逻辑、计算模型)被哪些下游系统/业务使用?(报表、模型、API服务)历史上发生过哪些变更?(谁改的、何时改的、改了什么)

2026-01-02 20:58:56 686

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除