Freedom3568
这个作者很懒,什么都没留下…
展开
-
湖仓一体:基于Iceberg的湖仓一体架构在B站的实践
在B站,每天都有PB级的数据注入到大数据平台,经过离线或实时的ETL建模后,提供给下游的分析、推荐及预测等场景使用。面对如此大规模的数据,如何高效低成本地满足下游数据的分析需求,一直是我们重点的工作方向。...原创 2022-08-30 10:40:25 · 618 阅读 · 0 评论 -
数据服务:B站数据服务的演进之路
数据平台部作为B站的基础部门,为B站各业务方提供多种数据服务,如BI分析平台,ABTest平台,画像服务,流量分析平台等等,这些服务、平台背后都有海量数据的取数查询需求。伴随着业务的发展,取数服务也面临越来越多的挑战:需求多、人力紧张,越来越多业务基于数据驱动来做运营,相关的取数需求如:指标查询、UP主、稿件等明细数据的个性化查询需求越来越多,导致在需求响应上,有限的人力跟不上业务发展。......原创 2022-08-30 10:10:40 · 302 阅读 · 0 评论 -
实时数仓:实时数仓3.0的演进之路
数据处理现状:当前基于Hive的离线数据仓库已经非常成熟,数据中台体系也基本上是围绕离线数仓进行建设。但是随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀,业界最近几年就一直聚焦并探索于两个相关的热点问题:实时数仓建设和大数据架构的批流一体建设......原创 2022-08-30 10:11:05 · 995 阅读 · 0 评论 -
数据湖:OPPO的数据湖架构升级实践
过去几年,数据仓库和数据湖方案在快速演进和弥补自身缺陷的同时,二者之间的边界也逐渐淡化。云原生的新一代数据架构不再遵循数据湖或数据仓库的单一经典架构,而是在一定程度上结合二者的优势重新构建。在云厂商和开源技术方案的共同推动之下,2021 年我们将会看到更多“湖仓一体”的实际落地案例。...原创 2022-08-15 23:15:11 · 250 阅读 · 0 评论 -
数据湖:网易严选的数据湖实践
过去几年,数据仓库和数据湖方案在快速演进和弥补自身缺陷的同时,二者之间的边界也逐渐淡化。云原生的新一代数据架构不再遵循数据湖或数据仓库的单一经典架构,而是在一定程度上结合二者的优势重新构建。在云厂商和开源技术方案的共同推动之下,2021 年我们将会看到更多“湖仓一体”的实际落地案例。...原创 2022-08-15 22:26:32 · 1035 阅读 · 0 评论 -
数据治理:携程度假的数据治理实践
携程度假包含跟团游、自由行、玩乐、门票、用车等十多条业务线,业务涵盖线上预定到线下门店,业务线之间的差异性大,业务系统之间的复杂度高。为了满足业务的快速发展与创新,前期数据团队都是以小数仓的方式来快速响应需求。经历了多年的发展演变,主要面临以下几个问题:(1) 各业务线端到端重复建设浪费资源,人力配置不均衡,团队效率低;(2) 大量重复建设的模型、报表及应用,需求场景不清晰,历史包袱重;(3) 维度不统一,数据整合难度大;指标口径不一致,数据理解成本高;...原创 2022-08-15 21:29:28 · 588 阅读 · 0 评论 -
实时数仓:实时数据平台之技术篇
实时数据平台(RTDP,Real-time Data Platform)是一个重要且常见的大数据基础设施平台。在上篇(设计篇)中,我们从现代数仓架构角度和典型数据处理角度介绍了RTDP,并探讨了RTDP的整体设计架构。本文作为下篇(技术篇),则是从技术角度入手,介绍RTDP的技术选型和相关组件,探讨适用不同应用场景的相关模式。RTDP的敏捷之路就此展开~...原创 2022-08-15 21:11:55 · 1361 阅读 · 0 评论 -
实时数仓:实时数据平台之设计篇
本文将会分上下两篇对一个重要且常见的大数据基础设施平台展开讨论,即“实时数据平台”。 在上篇设计篇中,咱们首先从两个维度介绍实时数据平台:从现代数仓架构角度看待实时数据平台,从典型数据处理角度看待实时数据处理;接着咱们会探讨实时数据平台总体设计架构、对具体问题的考量以及解决思路。 在下篇技术篇中,咱们会进一步给出实时数据平台的技术选型和相关组件介绍,并探讨不一样模式适用哪些应用场景。但愿经过对本文的讨论,读者能够获得一个有章可循、可实际落地的实时数据平台构建方案。...原创 2022-08-13 10:50:07 · 846 阅读 · 0 评论 -
数仓:金融级数仓架构转型的最佳实践(下篇)
前面我们在文《数仓金融数据仓库架构转型的最佳实践》中介绍了Kyligence金融数据仓库迁移的整体方法论以及在某国有大行项目的最佳实践。本篇将对数据仓库迁移方法论中最为核心的脚本迁移过程进行深入剖析,从血缘分析、数据库对象迁移、ETL脚本迁移和数据验证等具体环节详细介绍数仓迁移过程中的落地方法以及迁移自动化的挑战及实现。数据平台的迁移和数据平台的建设一样,都是系统化的工程,需要成体系的方法论和一系列配套的自动化工具。httpshttpshttpshttpshttpshttpshttps。...原创 2022-08-02 10:31:44 · 435 阅读 · 0 评论 -
数仓:为什么说 ETL 的未来不是 ELT,而是 EL (T)
在过去的十年里,我们存储和管理数据的方式已经彻底改变了。我们从E“TL”世界进入了E“LT”世界,诸如Fivetran这样的公司推动了这一趋势。然而,我们并不认为它会止步于此;ELT是我们头脑中向EL(t)(与EL解耦)的过渡。为了理解这一点,我们需要辨别出这一趋势的潜在原因,因为它们可能显示出未来会发生什么。...原创 2022-08-01 11:14:56 · 551 阅读 · 0 评论 -
数仓:数仓从ETL到ELT架构的转化以及俩者的区别
分布式数据库技术正在迅速发展,随着数据处理的实时性需求越来越高,公司在管理数据处理的过程中,开始从ETL方案,逐渐转向ELT方案。ETL(Extract-Transform-Load),是对数据进行抽取、转换、加载的一系列过程,数据从数据源移动到中间区域(StagingArea),然后再进入数据仓库,所有转换都在数据加载到仓库之前执行。ELT的优势在于,将所有原始数据从多个源移动至一个统一的存储库,并且可以随时地、无限制地访问所有数据。这使得数据分析更加灵活便利。httpshttps。...原创 2022-08-01 11:07:53 · 508 阅读 · 0 评论 -
实时数仓:咸鱼的实时数仓经验分享
闲鱼作为一款闲置交易APP,在二手交易市场中是当之无愧的佼佼者。用户反馈商品曝光异常,如何快速定位?产品同学圈了一批商品,如何查看该样本的实时报表?发现问题总是晚一步,如何在第一时间获取自定义的预警信息?为了解决上述的这些问题,我们开始了打造闲鱼实时数仓的探索之路。...原创 2022-07-29 14:32:31 · 625 阅读 · 0 评论 -
实时数仓:知乎实时数仓的架构演进
“数据智能” (Data Intelligence) 有一个必须且基础的环节,就是数据仓库的建设,同时,数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务。从智能商业的角度来讲,数据的结果代表了用户的反馈,获取结果的及时性就显得尤为重要,快速的获取数据反馈能够帮助公司更快的做出决策,更好的进行产品迭代,实时数仓在这一过程中起到了不可替代的作用。1.0 版本的实时数仓主要是对流量数据做实时 ETL,并不计算实时指标,也未建立起实时数仓体系,实时场景比较单一,对实时数据流的处理主要是为了提升数据平台的原创 2022-07-29 14:19:33 · 352 阅读 · 0 评论 -
实时数仓:网易严选基于Flink的实时数仓实践
未来展望从三个方面第一,性能方面。模型用MySQL效率不高,后期迁移到ES上;维度表落地到Redis上进一步提高吞吐量。第二,开发效率。开发是SQL和API两种并存,开发效率不高,后期往SQL迁移,由于SQL本身局限,进行UDF扩展。第三,数据质量。目前主要是侧面辅助决策,希望对舒适数据准确性校验实现比较通用的规范,开发一些工具完成这些工作。httpshttpshttpshttpshttpshttpshttpshttpshttpshttps。...原创 2022-07-28 18:01:24 · 853 阅读 · 1 评论 -
实时数仓:滴滴的实时数仓落地实践
在公司内部,我们数据团队有幸与顺风车业务线深入合作,在满足业务方实时数据需求的同时,不断完善实时数仓内容,通过多次迭代,基本满足了顺风车业务方在实时侧的各类业务需求,初步建立起顺风车实时数仓,完成了整体数据分层,包含明细数据和汇总数据,统一了DWD层,降低了大数据资源消耗,提高了数据复用性,可对外输出丰富的数据服务。随着互联网的发展进入下半场,数据的时效性对企业的精细化运营越来越重要,商场如战场,在每天产生的海量数据中,如何能实时有效的挖掘出有价值的信息,对企业的决策运营策略调整有很大帮助。...原创 2022-07-28 17:39:55 · 283 阅读 · 0 评论 -
实时数仓:美团基于Flink的实时数仓建设实施
近些年,企业对数据服务实时化服务的需求日益增多。本文整理了常见实时数据组件的性能特点和适用场景,介绍了美团如何通过Flink引擎构建实时数据仓库,从而提供高效、稳健的实时数据服务。...原创 2022-07-28 15:39:08 · 426 阅读 · 0 评论 -
实时数仓:美团点评Flink的实时数仓应用分享
实时数仓是一个很容易让人产生混淆的概念。实时数仓本身似乎和把 PPT 黑色的背景变得更白一样,从传统的经验来讲,我们认为数仓有一个很重要的功能,即能够记录历史。通常,数仓都是希望从业务上线的第一天开始有数据,然后一直记录到现在。但实时处理技术,又是强调当前处理状态的一门技术,所以我们认为这两个相对对立的方案重叠在一起的时候,它注定不是用来解决一个比较广泛问题的一种方案。于是,我们把实时数仓建设的目的定位为解决由于传统数据仓库数据时效性低解决不了的问题。由于这个特点,我们给定了两个原则:当然为了让我们整个系统原创 2022-07-28 15:14:22 · 366 阅读 · 0 评论 -
数仓:Doris在美团的应用实践
美团外卖数据仓库技术团队负责支撑日常业务运营及分析师的日常分析,由于外卖业务特点带来的数据生产成本较高和查询效率偏低的问题,他们通过引入ApacheDoris引擎优化生产方案,实现了低成本生产与高效查询的平衡。并以此分析不同业务场景下,基于Kylin的MOLAP模式与基于Doris引擎的ROLAP模式的适用性问题。希望能对大家有所启发或者帮助。本文侧重于以Doris引擎为“发动机”的数仓生产架构的改进与思考。httpshttpshttpshttpshttpshttpshttpshttps。...原创 2022-07-28 10:32:48 · 257 阅读 · 0 评论 -
实时数仓:美团的实时数仓建设实践
实时数仓以端到端低延迟、SQL标准化、快速响应变化、数据统一为目标。美团外卖数据智能组总结的最佳实践是一个通用的实时生产平台跟一个通用交互式实时分析引擎相互配合,同时满足实时和准实时业务场景。两者合理分工,互相补充,形成易开发、易维护且效率高的流水线,兼顾开发效率与生产成本,以较好的投入产出比满足业务的多样性需求。...原创 2022-07-27 17:39:21 · 257 阅读 · 0 评论 -
数仓:数仓建设中的数据建模和日志体系
对于一个软件来说,分为功能需求和跨功能需求(Cross-FunctionalRequirements,CFR)。功能需求,一般是我们可以看见的,就是实现了什么功能,提供了什么服务。而跨功能需求,是隐性的,容易被忽略,通常被称为非功能需求(Non-FunctionalRequirements,NFR)。开发过程中,在跨功能需求上的成本,难度和工作量,是要远远大于功能需求的,需要让非技术人员意识到要实现这些跨功能需求所需要的额外的工作量。服务器发生异常,数据发生异常,如何保证ETL的真正幂等性。...原创 2022-07-26 11:18:01 · 263 阅读 · 0 评论 -
数仓:爱奇艺数仓平台建设实践
先介绍一下爱奇艺公司整体的业务情况以及数据仓库1.0的设计和出现的问题,针对数仓1.0的缺陷,是如何演进到数仓2.0架构以及数仓2.0需要解决的问题和需要达成的目标。这张图非常清晰的展示了爱奇艺的产品矩阵,早期爱奇艺是视频业务,后来从视频业务周边衍生出来一些新的业务,以视频业务为主围绕着核心IP,衍生出短视频、小视频、奇巴布、爱奇艺阅读、叭哒、泡泡、奇秀直播、爱奇艺知识、体育、电商等众多业务,从苹果树到苹果园构建了泛娱乐生态矩阵。智能化httpshttpshttps。...原创 2022-07-26 11:01:46 · 897 阅读 · 0 评论 -
数仓:银行业数仓的分层架构实践
想要了解数据仓库的建设,必须要了解数据仓库的分层架构。然而仅了解分层架构的内容,对数仓的建设仍只停留在形而上学的阶段。知其然也知其所以然,真正了解分层架构划分原理及建设思路,才会对分层架构融会贯通,未来面对千变万化的业务形态及数据形态,仍有共性的手段来处理。建设数据仓库犹如创造一条新的生命,分层架构只是这条生命的逻辑骨架而已。想要在骨架上长出血肉,就必须进行合适的数据建模,数据仓库的强壮还是孱弱,健美还是丑陋,就取决于建模的结果。httpshttps。...原创 2022-07-25 19:03:36 · 818 阅读 · 0 评论 -
数仓:浅谈银行业的数仓构建实践
数据仓库,对从事IT行业的从业者来说并不是个陌生的名词,这个概念由数据仓库之父BillInmon在1991年出版的“BuildingtheDataWarehouse”中定义的——面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持决策管理。面向主题数据仓库归集全行数据并按特定主题梳理,方便使用者按主题编目快速查找到所需数据并使用;数据集成数据仓库归集全行数据,打破系统间数据孤岛的局面,从而为后续的决策管理与数据服务提供强大的数据支撑;相对稳定。...原创 2022-07-25 18:55:07 · 2219 阅读 · 0 评论 -
数仓:工作流的设计以及优化实践
随着IT时代步入到DT时代,从数据中挖掘价值已经变得越来越重要。数据仓库系统长期以来一直是企业IT架构的重要组成部分,并且逐步与大数据等技术相融合,已然成为建设数据文化的智慧型企业的必然措施。本文主要针对数据仓库建设中存在的workflow应用场景进行分析,结合数据仓库自身的特性,对现有workflow方式进行优化,提出了一套适用于数据仓库建设的workflow优化方案。httpshttpshttpshttpshttpshttpshttpshttpshttps。...原创 2022-07-22 19:25:09 · 631 阅读 · 0 评论 -
数仓:流批一体的探索与实践
提到流批一体,不得不提传统的大数据平台——Lambda架构。它能够有效地支撑离线和实时的数据开发需求,但它流和批两条数据链路割裂所导致的高开发维护成本以及数据口径不一致是无法忽视的缺陷。通过一套数据链路来同时满足流和批的数据处理需求是最理想的情况,即流批一体。此外我们认为流批一体还存在一些中间阶段,比如只实现计算的统一或者只实现存储的统一也是有重大意义的。首先是数据实时性。如何把端到端的数据时延降低到秒级别是一个很大的挑战,因为它同时涉及到计算引擎及存储技术。...原创 2022-07-22 18:52:02 · 848 阅读 · 0 评论 -
数仓:金融级数仓架构转型的最佳实践(上篇)
2000年初,建行开始启动数据仓库的规划和构建,最早采用了Teradata一体机平台,为业务提供了集成、统一的数据仓库平台,但随着数据量和分析应用数量的快速增长,一体机平台成本昂贵、技术封闭等痛点开始显现。2012年,建行启动新一代架构建设,在数据线引入基于X86架构的MPP数据库Greenplum,取得了软硬件解耦、降低成本的效益。但随着应用场景的深入和数据服务需求的爆发,MPP平台并发能力差、扩展能力受限的问题开始凸显。大数据时代,传统数仓面临的挑战httpshttps。.........原创 2022-07-19 18:35:36 · 339 阅读 · 0 评论 -
数据仓库:大数据离线任务开发调度平台实践
在数据仓库的建立过程中,核心技术是抽取、转换、装载(ETL),它为数据仓库提供及时、高质而准确的数据。由于 ETL 包括众多的处理任务,且这些任务之间有一定的约束关系,如何高效的调度和管理这些任务是数据仓库 ETL 实施中非常重要的工作,也是提高数据仓库开发效率和资源利用率的关键。在大数据平台,随着业务发展,每天承载着成千上万的 ETL 任务调度,这些任务的形态各种各样。怎么样让大量的 ETL 任务准确的完成调度而不出现问题,甚至在任务调度执行中出现错误的情况下,任务能够完成自我恢复甚至执行错误告警与完整的原创 2022-07-11 10:40:35 · 432 阅读 · 0 评论 -
数据仓库:金融/银行业的分层架构篇
自从大数据平台hadoop及其技术火起来之后,无论是政企、民企还是各类金融机构,都掀起了一股大数据技术转型、数据仓库重构、智能数据分析、AI 等一系列黑科技且高大上的热潮。其实,是否转型大数据技术以后,产品营销、风险管控、数据分析、管理决策等企业核心诉求都可以应有尽有呢?企业的数据管理核心——数据仓库又应该以何种形态来建设?要回答上述问题,必须要从理解数据仓库的本质与架构开始。数据仓库,由数据仓库之父 Bill Inmon 在 1991 年出版的“Building the Data Warehouse”定义原创 2022-06-28 11:38:02 · 1389 阅读 · 0 评论 -
数据仓库:金融/银行业主题层划分方案
Teradata公司作为全球最大的专注于大数据分析、数据仓库和整合营销管理解决方案的供应商,并提出一种先进的FS-LDM模型(Financial Services Logcial Data Model),把银行约80%的业务数据囊括在该模型中。Teradata FS-LDM 是一个成熟产品,在一个集成的模型内支持保险、银行及证券,包含十大主题:当事人、产品、协议、事件、资产、财务、机构、地域、营销、渠道。具体划分如下图所示:IBM 公司作为数据仓库和数据分析的“元老级”企业,为了对抗 Teradata 公原创 2022-06-24 16:15:23 · 3369 阅读 · 0 评论 -
数据仓库:DWS层设计原则
对于数仓的分层,想必大家都不陌生。基于OneData方法论的三层数仓划分:数据引入层(ODS,Operational Data Store)、数据公共层(CDM,Common Dimenions Model)和数据应用层(ADS,Application Data Store)早就深入人心。当然啦,涉及到每一层具体该怎么开发、建模,可能大家都有自己的理解。但好在大家对数据建模重要性的认识那都是一致的,如果我们把指标比作树上的果实,那么模型就好比是大树的躯干,想让果实结得好,必须让树干变得粗壮。我们先来回想下,原创 2022-06-24 15:56:22 · 473 阅读 · 0 评论 -
数据仓库:分层设计详解
文章有点长,强烈建议先收藏后阅读,因为我担心你不一定一次性能学习完。只有数据模型将数据有序的组织和存储起来之后,大数据才能得到高性能、低成本、高效率、高质量的使用。1、清晰数据结构:每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。数据关系条理化:源系统间存在复杂的数据关系,比如客户信息同时存在于核心系统、信贷系统、理财系统、资金系统,取数时该如何决策呢?数据仓库会对相同主题的数据进行统一建模,把复杂的数据关系梳理成条理清晰的数据模型,使用时就可避免上述问题了。2、数据血缘追踪:简单原创 2022-06-24 15:48:22 · 594 阅读 · 0 评论 -
数据中台:大数据平台,数据仓库(DM),数据中台之间的联系以及异同分析
大数据平台是一个技术平台。这个技术平台提供了对于大数据的分布式采集,存储,流处理和计算,实时分析等能力。在没有大数据平台前也有数据集成和管理的平台,这种平台可以实现对结构化数据本身的采集,集成和管理。管理平台,是在原生的大数据生态的基础之上,为了更好的管理集群服务,管理集群的资源,提供灵活SRE能力和资源核算审计能力的一系列工具和合称整体架构数据中台包括数据仓库的全部内容,数据仓库为数据中台提供了数据对外提供服务的基础资源,数据中台将数据仓库建设的投入价值进行最大化,以加快数据赋能业务的速度大家都知道数据原创 2022-06-23 22:01:23 · 1670 阅读 · 0 评论 -
数据中台:中台实践与总结
数据汇聚是数据中台必须提供的核心工具,把各种异构网络、异构数据源的数据方便地采集到数据中台中进行集中存储,为后续的加工建模做准备。数据汇聚方式一般有数据库同步、埋点、网络爬虫、消息队列等;从汇聚的时效性来分,有离线批量汇聚和实时采集。数据采集工具:Canal、DataX、Sqoop数据开发模块主要面向开发人员、分析人员,提供离线、实时、算法开发工具。1. 作业调度2.基线控制在大数据离线作业中,作业执行时间较长,经常遇到急着用数据发现数据还没出来的情况。采用算法对作业完成时间进行智能预测,根据预测,当作业原创 2022-06-22 11:47:25 · 268 阅读 · 0 评论 -
是时候改变你数仓的增量同步方案了
经过一段时间的演化,spark-binlog,delta-plus慢慢进入正轨。spark-binlog可以将MySQL binlog作为标准的Spark数据源来使用,目前支持insert/update/delete 三种事件的捕捉。 delta-plus则是对Delta Lake的一个增强库,譬如在Delta Plus里实现了将binlog replay进Detla表,从而保证Delta表和数据库表接近实时同步。除此之外,detla-plus还集成了譬如布隆过滤器等来提升数据更新速度,解决更新导致的文件数转载 2022-02-22 11:00:51 · 262 阅读 · 0 评论 -
数据仓库之Data Vault建模
一. 简介其主要的核心理念是,DV(Data Vault)是结合ER和DM的一套建模理论Data Vault是面向细节的,可追踪历史的,它是一组有连接关系的规范化的表的集合。这些表可以支持一个或多个业务功能,它是一种综合了第三范式(3NF)和星型模型优点的建模方法。其设计理念是要满足企业对灵活性、可扩展性、一致性和对需求的适应性要求,它是一种专为企业级数据仓库量身定制的建模方式。从上面的定义,可以看出Data Vault既是一种数据建模的方法论,又是构建企业数据仓库的一种具体方法。Data Vault原创 2021-04-13 18:12:57 · 484 阅读 · 0 评论 -
数据仓库整体介绍(第二篇)
一. 简介1. 数仓分层架构1.1 为什么要分层清晰数据结构方便数据血缘追踪减少重复开发把复杂问题简单化屏蔽原始数据的异常2. 数据中台3大层对应阿里5层数据模型ODS层 (Operation Data Store)1.1 数据来源(1)业务库离线数据:sqoop定时抽取日志实时数据:canal实时监听binlog 日志(2)埋点日志日志以文件形式存在:flume 定时抽取spark streaming /flink 实时抽取日志(3)消息队列active mq原创 2021-04-13 18:05:02 · 240 阅读 · 0 评论 -
数据仓库之实时数仓
一. 简介二. 核心1. 核心功能实时采集SQL开发算子化运维监控2. 实时数仓的应用场景实时olap分析实时看板数据实时特征实时业务监控3. 实时数仓的技术要求1.高并发性2.查询速度3.处理速度4. 实时数仓的演变4.1 Lambda架构在离线大数据架构基础上加了一个加速层,使用流处理技术完成实时性较高的计算4.2 Kappa架构实时事件处理为核心,统一数据处理4.3 Lambda与kappa架构的区别参考: http原创 2021-04-13 16:52:22 · 611 阅读 · 0 评论 -
数据仓库整体介绍
数仓是什么: 数仓即数据仓库,为能够提供更好的BI决策,需要对一系列的的现有数据资源进行整合和分析的过程,数仓更加适用于数据挖掘和分析,更加擅长OLAP 数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。 与数据库的...原创 2019-12-13 14:35:28 · 400 阅读 · 0 评论 -
Kettle学习笔记(入门,简介,简单操作)
Kettle:简介ETL:简介ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少的,Kettle就是强大的ETL工具。Kettle:概念Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、U...转载 2019-12-09 11:07:14 · 1353 阅读 · 0 评论 -
Kettle 整体介绍
ETL是什么 ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移等工作,Kettle就是来干这件事的。 Kettle概述 Kettle 是一款开源ETL处理工具,支持对多种不同数据源进行数据抽全...原创 2019-12-09 10:55:02 · 629 阅读 · 0 评论