Freedom3568
这个作者很懒,什么都没留下…
展开
-
数据湖:OPPO数据湖统一存储技术实践
OPPO是一家智能终端制造公司,有着数亿的终端用户,手机 、IoT设备产生的数据源源不断,设备的智能化服务需要我们对这些数据做更深层次的挖掘。海量的数据如何低成本存储、高效利用是大数据部门必须要解决的问题。目前业界流行的解决方案是数据湖......原创 2022-08-30 10:10:56 · 326 阅读 · 0 评论 -
数据湖:开源数据湖生态介绍及Delta2.0新功能简介,再加新秀Arctic
Arctic 文档地址:https://arctic.netease.com/ch/Git 地址:https://github.com/NetEase/arctic。原创 2022-08-30 16:11:15 · 243 阅读 · 0 评论 -
湖仓一体:基于Iceberg的湖仓一体架构在B站的实践
在B站,每天都有PB级的数据注入到大数据平台,经过离线或实时的ETL建模后,提供给下游的分析、推荐及预测等场景使用。面对如此大规模的数据,如何高效低成本地满足下游数据的分析需求,一直是我们重点的工作方向。...原创 2022-08-30 10:40:25 · 618 阅读 · 0 评论 -
数据服务:B站数据服务的演进之路
数据平台部作为B站的基础部门,为B站各业务方提供多种数据服务,如BI分析平台,ABTest平台,画像服务,流量分析平台等等,这些服务、平台背后都有海量数据的取数查询需求。伴随着业务的发展,取数服务也面临越来越多的挑战:需求多、人力紧张,越来越多业务基于数据驱动来做运营,相关的取数需求如:指标查询、UP主、稿件等明细数据的个性化查询需求越来越多,导致在需求响应上,有限的人力跟不上业务发展。......原创 2022-08-30 10:10:40 · 302 阅读 · 0 评论 -
实时数仓:实时数仓3.0的演进之路
数据处理现状:当前基于Hive的离线数据仓库已经非常成熟,数据中台体系也基本上是围绕离线数仓进行建设。但是随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀,业界最近几年就一直聚焦并探索于两个相关的热点问题:实时数仓建设和大数据架构的批流一体建设......原创 2022-08-30 10:11:05 · 994 阅读 · 0 评论 -
数据湖:OPPO的数据湖架构升级实践
过去几年,数据仓库和数据湖方案在快速演进和弥补自身缺陷的同时,二者之间的边界也逐渐淡化。云原生的新一代数据架构不再遵循数据湖或数据仓库的单一经典架构,而是在一定程度上结合二者的优势重新构建。在云厂商和开源技术方案的共同推动之下,2021 年我们将会看到更多“湖仓一体”的实际落地案例。...原创 2022-08-15 23:15:11 · 249 阅读 · 0 评论 -
数据湖:网易严选的数据湖实践
过去几年,数据仓库和数据湖方案在快速演进和弥补自身缺陷的同时,二者之间的边界也逐渐淡化。云原生的新一代数据架构不再遵循数据湖或数据仓库的单一经典架构,而是在一定程度上结合二者的优势重新构建。在云厂商和开源技术方案的共同推动之下,2021 年我们将会看到更多“湖仓一体”的实际落地案例。...原创 2022-08-15 22:26:32 · 1035 阅读 · 0 评论 -
数据治理:携程度假的数据治理实践
携程度假包含跟团游、自由行、玩乐、门票、用车等十多条业务线,业务涵盖线上预定到线下门店,业务线之间的差异性大,业务系统之间的复杂度高。为了满足业务的快速发展与创新,前期数据团队都是以小数仓的方式来快速响应需求。经历了多年的发展演变,主要面临以下几个问题:(1) 各业务线端到端重复建设浪费资源,人力配置不均衡,团队效率低;(2) 大量重复建设的模型、报表及应用,需求场景不清晰,历史包袱重;(3) 维度不统一,数据整合难度大;指标口径不一致,数据理解成本高;...原创 2022-08-15 21:29:28 · 588 阅读 · 0 评论 -
实时数仓:实时数据平台之技术篇
实时数据平台(RTDP,Real-time Data Platform)是一个重要且常见的大数据基础设施平台。在上篇(设计篇)中,我们从现代数仓架构角度和典型数据处理角度介绍了RTDP,并探讨了RTDP的整体设计架构。本文作为下篇(技术篇),则是从技术角度入手,介绍RTDP的技术选型和相关组件,探讨适用不同应用场景的相关模式。RTDP的敏捷之路就此展开~...原创 2022-08-15 21:11:55 · 1361 阅读 · 0 评论 -
实时数仓:实时数据平台之设计篇
本文将会分上下两篇对一个重要且常见的大数据基础设施平台展开讨论,即“实时数据平台”。 在上篇设计篇中,咱们首先从两个维度介绍实时数据平台:从现代数仓架构角度看待实时数据平台,从典型数据处理角度看待实时数据处理;接着咱们会探讨实时数据平台总体设计架构、对具体问题的考量以及解决思路。 在下篇技术篇中,咱们会进一步给出实时数据平台的技术选型和相关组件介绍,并探讨不一样模式适用哪些应用场景。但愿经过对本文的讨论,读者能够获得一个有章可循、可实际落地的实时数据平台构建方案。...原创 2022-08-13 10:50:07 · 846 阅读 · 0 评论 -
架构:分布式任务调度系统(SIA-Task)简介
REST一种软件架构风格。这里要求执行器暴露Http调用接口来达到跨平台的目的;AOP切面编程技术。在Spring项目扩展包Hunter中使用,保证Task被串行调用(单例单线程);Quartz功能强大,应用灵活,对单个任务的控制基本做到了极致。这里用来作为调度中心时钟组件;MySQL用于元数据存储与(暂时)日志存取;Elastic基于Lucene的搜索服务器,提供了一个分布式多用户能力的全文搜索引擎。用于日志的存储与查询;httpshttps。...原创 2022-08-01 18:26:50 · 436 阅读 · 0 评论 -
实时数仓:美团的实时数仓建设实践
实时数仓以端到端低延迟、SQL标准化、快速响应变化、数据统一为目标。美团外卖数据智能组总结的最佳实践是一个通用的实时生产平台跟一个通用交互式实时分析引擎相互配合,同时满足实时和准实时业务场景。两者合理分工,互相补充,形成易开发、易维护且效率高的流水线,兼顾开发效率与生产成本,以较好的投入产出比满足业务的多样性需求。...原创 2022-07-27 17:39:21 · 257 阅读 · 0 评论 -
数仓:数仓建设中的数据建模和日志体系
对于一个软件来说,分为功能需求和跨功能需求(Cross-FunctionalRequirements,CFR)。功能需求,一般是我们可以看见的,就是实现了什么功能,提供了什么服务。而跨功能需求,是隐性的,容易被忽略,通常被称为非功能需求(Non-FunctionalRequirements,NFR)。开发过程中,在跨功能需求上的成本,难度和工作量,是要远远大于功能需求的,需要让非技术人员意识到要实现这些跨功能需求所需要的额外的工作量。服务器发生异常,数据发生异常,如何保证ETL的真正幂等性。...原创 2022-07-26 11:18:01 · 263 阅读 · 0 评论 -
数仓:爱奇艺数仓平台建设实践
先介绍一下爱奇艺公司整体的业务情况以及数据仓库1.0的设计和出现的问题,针对数仓1.0的缺陷,是如何演进到数仓2.0架构以及数仓2.0需要解决的问题和需要达成的目标。这张图非常清晰的展示了爱奇艺的产品矩阵,早期爱奇艺是视频业务,后来从视频业务周边衍生出来一些新的业务,以视频业务为主围绕着核心IP,衍生出短视频、小视频、奇巴布、爱奇艺阅读、叭哒、泡泡、奇秀直播、爱奇艺知识、体育、电商等众多业务,从苹果树到苹果园构建了泛娱乐生态矩阵。智能化httpshttpshttps。...原创 2022-07-26 11:01:46 · 896 阅读 · 0 评论 -
数仓:银行业数仓的分层架构实践
想要了解数据仓库的建设,必须要了解数据仓库的分层架构。然而仅了解分层架构的内容,对数仓的建设仍只停留在形而上学的阶段。知其然也知其所以然,真正了解分层架构划分原理及建设思路,才会对分层架构融会贯通,未来面对千变万化的业务形态及数据形态,仍有共性的手段来处理。建设数据仓库犹如创造一条新的生命,分层架构只是这条生命的逻辑骨架而已。想要在骨架上长出血肉,就必须进行合适的数据建模,数据仓库的强壮还是孱弱,健美还是丑陋,就取决于建模的结果。httpshttps。...原创 2022-07-25 19:03:36 · 818 阅读 · 0 评论 -
数仓:浅谈银行业的数仓构建实践
数据仓库,对从事IT行业的从业者来说并不是个陌生的名词,这个概念由数据仓库之父BillInmon在1991年出版的“BuildingtheDataWarehouse”中定义的——面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持决策管理。面向主题数据仓库归集全行数据并按特定主题梳理,方便使用者按主题编目快速查找到所需数据并使用;数据集成数据仓库归集全行数据,打破系统间数据孤岛的局面,从而为后续的决策管理与数据服务提供强大的数据支撑;相对稳定。...原创 2022-07-25 18:55:07 · 2219 阅读 · 0 评论 -
数仓:流批一体的探索与实践
提到流批一体,不得不提传统的大数据平台——Lambda架构。它能够有效地支撑离线和实时的数据开发需求,但它流和批两条数据链路割裂所导致的高开发维护成本以及数据口径不一致是无法忽视的缺陷。通过一套数据链路来同时满足流和批的数据处理需求是最理想的情况,即流批一体。此外我们认为流批一体还存在一些中间阶段,比如只实现计算的统一或者只实现存储的统一也是有重大意义的。首先是数据实时性。如何把端到端的数据时延降低到秒级别是一个很大的挑战,因为它同时涉及到计算引擎及存储技术。...原创 2022-07-22 18:52:02 · 848 阅读 · 0 评论 -
数据中台:中台设计四步走
本文旨在探讨通用的数据中台架构设计方法,产出物为数据中台的逻辑架构。当然,考虑到业界对于数据中台的定义千差万别,可以预见大家不一定认同本文设想的中台架构,但我觉得每个步骤中的推演过程或许会大家给带来一点启发,还是最终成文,大家权当是疫情期间做了一次脑力体操吧。...原创 2022-07-11 14:30:58 · 1090 阅读 · 0 评论 -
数据中台:一个会动用组织架构的一把手工程
数据中台强调的是一种复用能力。很多企业的愿景都是“将数据用起来”,这也是数据平台类型企业基础设施的定位目标,如果再加上一些复用方法论和完善的运营机制,那么就可以认为企业在建设“数据中台”。使用数据中台最明显的效果就是提升开发效率,使用封装好的工具平台,降低开发难度,数据分析的速度会大大提高。 那么,企业建设数据中台需要如何调整组织架构?数据中台团队的人员构成是什么样子?本文将带你了解数据中台建设背后的组织架构调整问题。当中台具体化为数据中台时,应该如何定义呢?此前,InfoQ 曾就这一话题采访了数家企业,最原创 2022-07-11 14:09:32 · 319 阅读 · 0 评论 -
数据仓库:大数据离线任务开发调度平台实践
在数据仓库的建立过程中,核心技术是抽取、转换、装载(ETL),它为数据仓库提供及时、高质而准确的数据。由于 ETL 包括众多的处理任务,且这些任务之间有一定的约束关系,如何高效的调度和管理这些任务是数据仓库 ETL 实施中非常重要的工作,也是提高数据仓库开发效率和资源利用率的关键。在大数据平台,随着业务发展,每天承载着成千上万的 ETL 任务调度,这些任务的形态各种各样。怎么样让大量的 ETL 任务准确的完成调度而不出现问题,甚至在任务调度执行中出现错误的情况下,任务能够完成自我恢复甚至执行错误告警与完整的原创 2022-07-11 10:40:35 · 431 阅读 · 0 评论 -
架构设计:DolphinScheduler作为大数据调度系统是如何支撑日均 6000+ 实例,TB 级数据流量的实践
我们是联通医疗团队,一直践行 “服务医改,惠及民生” 的使命,全面驱动医疗健康产业数字化、智能化转型。在调度系统选型初期,我们团队技术栈以 JVM 语言为主,由于 Airflow 的结构体系无法进行充分的改造和融合,因此在开源调度系统的选择上,我们主要对 **Azkaban 和 **Apache Dolphin Scheduler 进行了充分的调研和预演。结果显示,在相同的环境压测下,Azkaban 在稳定性上存在不足,会有任务积压和 executor 负载过高等影响,功能性上也存在一定的缺陷。我们选择 A原创 2022-07-08 15:43:34 · 874 阅读 · 0 评论 -
数据治理: 数据资产管理篇
随着大数据时代的到来,人们已经认识到数据是一种无形的宝贵资产,谷歌、Facebook、阿里巴巴、腾讯等企业市值高达数千亿美元,不仅在于其独特的商业模式和市场垄断地位,更多的估值是给予了其拥有的海量用户数据里所蕴含的巨大价值。对于数据的拥有者和管理者来说,通过对数据的合理管理和有效应用,能盘活并充分释放数据的巨大价值。但如果数据的拥有者和管理者缺乏对数据的有效管理,数据就用不起来,或者即便用起来也用不好,在这种情况下,堆积如山的无序数据给企业带来的是高额的成本,数据成为一项棘手的“负债”。从这个角度来说,数据原创 2022-07-07 11:56:36 · 399 阅读 · 0 评论 -
数据中台:资产管理平台建设方案概述
数据资产管理平台完成数据资产管理的两大核心工作,分别是数据治理工作和数据运营工作:数据治理:数据资产管理平台将业务数据化,并开展数据标准化;数据资产管理平台清理垃圾数据,提升数据质量;数据资产管理平台理清数据关联关系。运营数据:数据资产管理平台汇聚全局数据,明确数据分布;数据资产管理平台提供数据服务,共享数据;数据资产管理平台评估数据资产,实现数据价值增值。数据资产管理工具是数据资产管理工作落地的重要手段,因大数据技术栈开源软件的缺失,给各个软件厂商提供了差异化竞争的良好条件。然而作为数据资产管理工具的集成原创 2022-07-07 11:45:29 · 593 阅读 · 0 评论 -
数据治理:元数据管理篇
如果我说:元数据(Meta Data),就是描述数据的数据。简单点,其实元数据相当于数据的户口本。户口本是什么?它除了包含个人姓名、年龄、性别、身份证号码等各种基本描述信息外,还有这个人和家人的血缘关系,比如说父子,兄妹等等。所有的这些信息加起来,构成对这个人的全面描述,也可以称之为这个人的元数据。同样的,如果我们要描述清楚一个实际的数据,以某张表为例,我们需要知道表名、表别名、表的所有者、数据存储的物理位置、主键、索引、表中有哪些字段、这张表与其他表之间的关系等等。所有的这些信息加起来,就是这张表的元数据原创 2022-07-07 11:38:33 · 397 阅读 · 0 评论 -
数据治理:数据标准管理概述
数据标准这个词,最早是在金融行业,特别是银行业的数据治理中开始使用的。数据标准工作一直是数据治理中的重要基础性内容。但是对于数据标准,不同的人却有不同的看法:有人认为数据标准极其重要,只要制定好了数据标准,所有数据相关的工作依标进行,数据治理大部分目标就水到渠成了。也有人认为数据标准几乎没什么用,做了大量的梳理,建设了一整套全面的标准,最后还不是被束之高阁,被人遗忘,几乎没有发挥任何作用。首先亮明作者的观点:这两种看法都是不对的,至少是片面的。实际上,数据标准工作是一项复杂的,涉及面广的,系统性的,长期性的原创 2022-07-07 11:29:50 · 299 阅读 · 0 评论 -
数据治理:资产地图概述
讲好什么是数据地图,还有从数据治理说起,很多公司的数据治理搞的就仅仅是看了几篇网上了理论文章,就开干,最终不了了之。为什么?其中一个很重要的原因是没有做好数据地图。开始打仗了,才发现自己连一个作战地图都没有,怎么调兵遣将?数据治理同事做了大量的数据模型和指标,但是数据使用人员却不知道如何快速找到自己想要的数据模型和指标。上面背景已经说了,数据地图至少应该解决两个问题:如何寻找数据和如何用好数据。企业级的数据仓库会有上千个数据模型,对于分析师来说,怎么找到自己要用的模型呢?比如分析师在找销量数据时,可能会有很原创 2022-07-07 11:09:14 · 1584 阅读 · 0 评论 -
数据治理:主数据的3特征、4超越和3二八原则
主数据(Master Data)是具有共享性的基础数据,可以在企业内跨越各个业务部门被重复使用的,因此通常长期存在且应用于多个系统。由于主数据是企业基准数据,数据来源单一、准确、权威,具有较高的业务价值,因此是企业执行业务操作和决策分析的数据标准。...原创 2022-07-05 10:40:57 · 378 阅读 · 0 评论 -
数据可视化:Echarts和Tableau简介
由于工作里常常要做图表,Excel没法满足复杂场景,所以Echarts和Tableau成为了我最得力的两个助手。作为声名远扬的可视化工具,Echarts和Tableau,它们的性质不太一样。Echarts是一个纯JavaScript 的开源可视化图表库,使用者只需要引用封装好的JS,就可以展示出绚丽的图表。就在前不久,Echarts成为了Apache的顶级项目。Apache顶级项目的家族成员有哪些呢?Mavan、Hadoop、Spark、Flink…都是软件领域的顶流Tableau是一个BI工具,商业化的P原创 2022-07-05 10:19:26 · 489 阅读 · 0 评论 -
数据治理:元数据管理实施(第四篇)
主数据项目建设从方法上,分为以下四部,简单归结为:“数据调查、建立体系、数据接入、数据运营”!数据调查需要全面调研和了解企业的数据管理现状,以便做出客观切实的数据管理评估!数据资源普查的方法常用的有两种,一种是自顶向下的梳理和调研,另一种是自底向上的梳理和调研。自顶向下的调研一般会用到IRP(信息资源规划)和BPM(业务流程管理)两个方法。这里重点介绍一下IRP,信息资源规划(Information Resource Planning ,简称IRP),是指对所在单位信息的采集、处理、传输和使用的全面规划。其原创 2022-06-30 11:01:19 · 199 阅读 · 0 评论 -
数据治理:数据治理框架(第一篇)
维基百科:数据治理对于确保数据的准确、适度分享和保护是至关重要的。有效的数据治理计划会通过改进决策、缩减成本、降低风险和提高安全合规等方式,将价值回馈于业务,并最终体现为增加收入和利润。笔者认为:所有为提高数据质量而展开的业务、技术和管理活动都属于数据治理范畴。数据治理的目的就是通过有效的数据资源控制手段,进行数据的控制,以提升数据质量进而提升数据变现的能力。在我国,各行业的信息化发展和建设水平并不均衡,甚至有的行业是刚刚起步。但是,不论是金融行业、通讯行业、地产行业、传统制造业以及农业,其信息化的发展基本原创 2022-06-30 10:32:40 · 649 阅读 · 0 评论 -
数据治理:数据治理管理(第五篇)
“数据质量管理是对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。数据质量管理的终极目标是通过可靠的数据提升数据在使用中的价值,并最终为企业赢得经济效益。”——以上内容摘自百度百科。笔者观点:“数据质量管理不单纯是一个概念,也不单纯是一项技术、也不单纯是一个系统,更不单纯是一套管理流程,数据质量管理是一个集方法论、技术、业务和管理为一体的解决方案。通过有效的数据质量原创 2022-06-30 10:19:00 · 231 阅读 · 0 评论 -
服务治理(系统监控篇): 开源一站式运维管家ChengYing(承影)
继ChunJun(纯钧)、Taier(太阿)后,袋鼠云数栈大数据名剑家族开源的第三支名剑。ChengYing(承影)——承袭于袋鼠云开源项目名剑家族的概念,取自十大名剑之承影剑。ChengYing脱胎于袋鼠云数栈自主研发的一站式运维管家EasyManager,在ChengYing正式开源之前,开源技术团队于去年先开源了一款为远程统一管理主机端Agent生命周期而设计的系统——EasyAgent,作为EasyManager的关键组件,可以实现数栈服务的安装、升级、卸载、启停和配置管理。在EasyAgent开原创 2022-06-06 23:12:00 · 417 阅读 · 0 评论 -
AI中台:AI中台的实施与总结
随着“数据中台”的提出和成功实践,各企业纷纷在“大中台,小前台”的共识下启动了自己的中台化进程,以数据中台、技术中台、业务中台为代表的一系列技术,极大增强了业务的敏捷性,提高了组织效能。同时随着智能技术的发展,AI应用在业务研发中的占比逐渐升高,但AI模型训练的复杂性导致其开发慢、效率低,严重影响了业务的灵活性。针对这种情况,能否基于中台化思想对业务中AI研发工作进行专门支持,提供对智能需求的迅速实现和灵活试错功能,从而提升企业智能创新能力?AI中台的构建和实施又该如何进行?自从中台战略被提出并得到成功实施原创 2022-06-27 20:58:07 · 475 阅读 · 0 评论 -
数据治理:数据治理的七把利剑
正所谓“工欲善其事,必先利其器!”,一套好的数据治理工具,能让企业的数据治理工作事半功倍。数据治理本质是盘点数据资产、治理数据质量,实施数据全生命周期的管理,根据不同的项目特点,会用到不同的技术或工具。一般来说,数据治理产品或工具主要包含以下组件:数据模型管理、元数据管理、数据质量管理、数据标准管理、主数据管理、数据安全管理、数据服务平台。数据治理产品中的七个工具或组件,都各有自己的特点和使命,在企业的数据治理中都有着不同的功能侧重,但是解决问题的目标是一致的——提升数据质量。这让我不由联想到的是那部经典的原创 2022-06-27 15:09:05 · 251 阅读 · 0 评论 -
数据治理:数据治理在数据中台下的解决方案
当前很多传统企业的数据中台还处于初步建设阶段,但伴随着移动互联网的逐步发展、线上和线下的融合,数据服务的形式、场景越来越多,业务维度会变得更加复杂,数据中台的建设也会面临更多的挑战,主要表现如下:数据缺乏标准,难以有效集成与使用数据中台需要集成内部和外部各个系统的数据,只有建立一致性的数据规范,通过统一的模型容器,才能实现数据的有效整合,避免数据误入“形合神离”的窘境。数据可信度偏低,导致数据不可用、不敢用数据中台的数据来源为内部的系统,其数据完整性、时效性、真实性都有待评估和度量,只有在数据中台建立完原创 2022-06-28 11:27:20 · 230 阅读 · 0 评论 -
数据治理:数据治理的建设思路以及落地经验
数据治理经过多年的沉淀,积累了比较完善的理论体系;但是落地时候,治理范围如何聚焦,数据产品如何定位、具象设计和推广运营,不同公司有着不同的设计实现。本文会结合贝壳找房近两年的业务数据中心建设经验,从产品视角来谈谈数据治理的问题。.........原创 2022-06-27 22:25:54 · 498 阅读 · 0 评论 -
数据治理:数据治理概述
数据治理是什么?我们先来看一下国际数据管理协会给出的定义:数据治理是对数据资产管理行使权力和控制的活动集合。似乎有点抽象,没关系,我们按照语文老师常说的字词拆解来理解这句话吧。首先是"对数据资产",这说明数据治理的前提和对象,是数据资产。其次数据治理是对数据资产"进行控制、管理、行使权力",说明有了数据资产还不够,如何有效的经营它、管理它、控制它也是要解决的关键点。数据资产是什么呢?我们类比一下个人的资产,你自己的资产就是你所有的钱或者说值钱的东西的一个集合,但是这个钱肯定要是真钱,不能是假钞。那么数据资产原创 2022-06-22 19:30:27 · 488 阅读 · 0 评论 -
数据中台:六问数据中台
数据中台到底是什么?它和我们熟知的数据平台有啥区别?它为什么会这么火、能给企业带来什么价值呢?数据中台整体架构和全景图又是什么呢?先不说那些官方的抽象的概念了,我想用我自己的大白话去说数据中台的概念。那就是如果把前台比作赚钱的。后台比作支持的。那么中台呢就是支持加速赚钱的。这个比喻我觉得还是很形象的,中台呢它实质就是前台和后台的一个桥梁,并且它能在这当中起到很好的加速效果。这里的加速,可以是效率上的提高,可以是协作上的共赢。举个例子,比如前台业务人员日常要分析广告投放、在哪个平台投放效益最好呢?抖音还是头原创 2022-06-27 15:23:16 · 102 阅读 · 0 评论 -
数据中台:一篇带你深入浅出了解数据中台
数据库阶段 —> 传统数仓 —> 大数据平台 ----> 大数据中台1979年:Oracle1.0商用数据库发布1996年:MySQL1.0发布,到2000年以后开始火起来。特点:数据库主要面向事务的增删改场景,一个数据库支撑多个简单单体应用,少量分析需求,借助数据库直接完成。但当数据增长较快,复杂的大量的分析需求,借助数据库做分析开始吃力。商业智能(Business Intelligence)诞生在上个世纪90年代,它是将企业已有的数据转化为知识,帮助企业做出经营分析决策。比如在零售行业的门店管理中,如何原创 2022-06-27 21:41:40 · 168 阅读 · 0 评论 -
数据中台:数据中台全栈技术架构解析,附带行业解决方案
当前,大部分企业不再建设从源数据采集到分析应用的烟囱式系统,更倾向于数据集中采集、存储,并应用分层建设。这种方式一方面有利于应用系统的快速部署,另一方面也保证了数据的集中管理与运营,体现数据的资产、资源属性。数据中台的出现弥补了数据开发和应用开发之间由于开发速度不匹配而出现的响应力不足等缺陷问题。数据中台是国内学者提出的概念,起始于阿里的“大中台、小前台”概念。阿里的中台是从管理的角度出发,以中台事业部集中数据搜索,技术及产品,数据共享等多个部门的功能。其他组织或企业建设数据中台不一定需要成立中台事业部,但原创 2022-06-23 23:15:07 · 505 阅读 · 0 评论