大数据
文章平均质量分 95
闻香识代码
这个作者很懒,什么都没留下…
展开
-
大数据开发之Django简单接口开发
大数据开发之Django简单接口开发背景做大数据开发,目前主要语言还是java和scala,但python由于在算法方向的广泛应用,一些公司为了降低内部开发和维护成本,会直接统一开发语言为python,而且主流的hadoop,spark,包括flink都有比较完善的python支持了。大数据团队一般职责最简化来说就是ETL,很多时候分工,直接把数据处理好治好,等待下游环节消费即可。但有时候也需要提供api接口,方便下游环节甚至外部访问。java语言下,很多时候直接spring就可以搞定这类需求,p原创 2021-03-01 11:28:17 · 1906 阅读 · 0 评论 -
flink mongodb sink自定义开发(支持flink sql)
flink mongodb sink自定义开发1. 背景目前官方关于自定义sink source资料较少,示例代码少,幸好github有一个clickhouse的自定义sink可以借鉴https://github.com/gmmstrive/flink-connector-clickhouse2. 步骤1. 环境jdk8idea 2020scala 2.112. pom以下是自定义connector开发时可以参考的pom文件<packaging>jar</原创 2021-01-31 23:36:33 · 4115 阅读 · 3 评论 -
flink redis connector(支持flink sql)
flink redis connector(支持flink sql)1. 背景工作原因,需要基于flink sql做redis sink,但bahir 分支的flink connector支持只是基于datastream,而需要支持flink sql,还需要进一步完善flink sql及flink table api按照flink官方社区,会是未来重点方向,包括python支持。因为所有的技术都会往使用友好方向发展,对外接口和使用友好,内部则会因为这个原因变得复杂起来。(但需要确定方向是否有误才行)原创 2021-01-31 23:03:55 · 4465 阅读 · 0 评论 -
Flink 1.12.0学习与分享(pyflink)
Flink 1.12.0学习与分享1. 大数据实时计算引擎历史第一代, 以Storm为代表, 高吞吐,低延迟,但精确一次消费以及开发维护便捷性,生态完善度等相对欠缺一些.第二代,以Spark 为代表, 高吞吐, 牺牲了一些延迟(微批次理念), 结合第三方框架, 可以很好实现精确一次消费. 开发维护便捷性, 生态完善度都非常好.第三代, 以Flink为代表, 设计时就以实时计算为出发点, 高吞吐,低延迟,精确一次消费语义支持, 开发维护便捷性, 生态完善度都非常好生态完善度:各类编程语言支持原创 2021-01-04 09:52:50 · 2816 阅读 · 1 评论 -
Flink SQL案例实践(1.11.0)
Flink SQL案例实践(1.11.0)1. 背景2020年随着阿里flink 批流一体大会开展,更多人和公司知道了flink的强大以及业务场景下的实际表现.关注和使用flink的公司以及个人会越来越多在大数据领域,一个引擎可以同时支持处理结构化数据,图计算,机器学习,流计算目前主流还是spark和flink.由于引擎设计理念,flink一开始就是为流计算设计,而spark则一开始就是以批处理设计的,不过是微批次的理念.这也导致了在一些方面,流数据处理领域flink会更加强大和灵活.本文案例是原创 2020-12-26 21:06:11 · 911 阅读 · 0 评论 -
redis 研究笔记汇总
redis 研究笔记汇总背景nosql 是为了解决高并发,高可扩展,高可用,高写入产生的数据库解决方案NoSql就是Not Only sql。Nosql是非关系型数据库,它是关系型数据库的良好补充,而不能替代关系型数据库Nosql数据库分类键值(Key-Value)存储数据库相关产品: Tokyo Cabinet/Tyrant、Redis、Voldemort、Berkeley DB典型应用: 内容缓存,主要用于处理大量数据的高访问负载。数据模型: 一系列键值对优势: 快速查询劣势:原创 2020-12-06 22:26:30 · 194 阅读 · 0 评论 -
spark streaming 结合kafka 精确消费一次将结果保存到hbase
spark streaming 结合kafka 精确消费一次将结果保存到hbase1. 环境scala 2.12.12jdk 1.8idea 2020.1maven 3.6.3spark 3.0.1kafka 0.10hadoop 3.2.1hbase 2.2.5 (另外一个明细数据幂等处理,保存到habse)redis 5.0pom<!-- 定义了一些常量 --> <properties> <maven.compiler.s原创 2020-12-06 20:23:44 · 976 阅读 · 0 评论 -
spark streaming 结合kafka 精确消费一次将结果保存到redis
spark streaming 结合kafka 精确消费一次到redis1. 环境scala 2.12.12jdk 1.8idea 2020.1maven 3.6.3spark 3.0.1kafka 0.10hadoop 3.2.1hbase 2.2.5 (另外一个明细数据幂等处理,保存到habse)redis 5.0pom<!-- 定义了一些常量 --> <properties> <maven.compiler.source原创 2020-12-06 20:11:45 · 1091 阅读 · 0 评论 -
spark streaming 入门案例演示
spark streaming 入门案例演示1. 环境scala 2.12.12jdk 1.8idea 2020.1maven 3.6.3spark 3.0.1kafka 0.10pom<!-- 定义常量 --> <properties> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target>1原创 2020-12-06 12:26:15 · 175 阅读 · 0 评论 -
Kafka 入门学习简介
Kafka 入门学习简介1. kafka是什么Apache Kafka is an open-source distributed event streaming platform used by thousands of companies for high-performance data pipelines, streaming analytics, data integration, and mission-critical applications官网http://kafka.apache原创 2020-12-06 12:21:40 · 177 阅读 · 0 评论 -
Spark Streaming 结合kafka流式数据处理代码案例(含精确消费一次结果保存到mysql)
Spark Streaming 结合kafka流式数据处理代码案例1. 背景在当前大数据处理中,根据数据处理类型可以分为离线数据处理和实时数据处理。不过目前主流的实时数据处理spark streaming和flink,其实前者只能算是准实时处理技术在国内,spark streaming做实时数据处理,一般都是结合kafka来进行数据消息缓存框架,包括spark官方案例也着重讲了这一点spark 官方文档 http://spark.apache.org/docs/latest/streaming-k原创 2020-12-06 11:40:47 · 1878 阅读 · 1 评论 -
大数据面试题题目2020年底总结Java(二)
大数据面试题题目2020年底总结Java(二)1. 多线程1.1volatile内存模型可见性用volatile修饰的变量,就会具有可见性。volatile修饰的变量不允许线程内部缓存和重排序,即直接修改内存。所以对其他线程是可见的。但是这里需要注意一个问题,volatile只能让被他修饰内容具有可见性,但不能保证它具有原子性volatile不保证原子性如何解决指令重排指CPU采用了允许将多条指令不按程序规定的顺序分开发送给各相应电路单元处理内存屏障(指令重排序时不能把后原创 2020-11-06 21:33:03 · 405 阅读 · 0 评论 -
大数据面试题题目2020年底总结(一)
大数据面试题集锦(一)1. javaJVM内存结构栈堆方法区程序计数器JVM内存回收机制哪些需要回收判断算法引用计数法每个对象创建的时候,会分配一个引用计数器,当这个对象被引用的时候计数器就加1,当不被引用或者引用失效的时候计数器就会减1。任何时候,对象的引用计数器值为0就说明这个对象不被使用了,就认为是“垃圾”,可以被GC处理掉。【优点】算法实现简单。【缺点】不能解决对象之间循环引用的问题。有垃圾对象不能被正确识别,这对垃圾回收来说是很致命的,所以GC并没有使原创 2020-11-05 21:55:03 · 407 阅读 · 1 评论 -
Kylin 3.1.0架构
Kylin 3.1.0架构背景在OLAP分析中经常会有如下概念事实,维度(这其实说的是事实表和维度表)度量,指标(这说的其实都是指表的列,维度就是从哪些角度对数据做分析,需要分析查看的维度就是度量)cube,顾名思义,就是一个立方体,不过由于实际OLAP中,不可能只有四个维度,所以实际上是指代多维立方体。本质就是一个多维数据集,包含维度和度量。详情可以看我关于OLAP的一篇博客下钻:从更细粒度的维度值角度探索数据(如时间维度,按天粒度查询销售额)上卷:从更粗粒度的维度值原创 2020-11-04 11:28:37 · 236 阅读 · 0 评论 -
大数据数仓之报表开发
大数据数仓之报表开发1. 背景在大数据开发中,主要的数据分析目的可以分为2类。一类是基于历史数据(就算是实时数仓,接收到数据的时候,其实也已经是历史数据了)做数据规律或者结果提取;一类是基于历史数据,训练模型,做未来数据预测或者分类等。如果是前者,基于已有数据做数据规律和数据结果提取,这时候就可以称之为报表开发。参考神策系统,报表开发可以划分固定维度报表开发,一定维度自由组合报表开发,自由维度报表开发。固定维度报表开发,一般是一些固定指标,但会加一些固定维度,典型的如年,月,日等一定维度内自原创 2020-11-03 22:54:30 · 6835 阅读 · 1 评论 -
大数据数仓之OLAP总结(一)
大数据数仓之OLAP总结(一)1. 背景在企业生产中,由于现有商业环境和业务越来越复杂和庞大,没有准确及时的数据支撑,在做企业经营决策和分析时,是无法得到很好的现实反馈,甚至会导致企业经营失败,项目关闭,公司破产。现有企业中,各个部门密切合作,运营,销售部门对接客户,技术部门做技术支撑,老板根据业务数据做企业决策。在这个过程中,如何快速,准确获取企业经营相关各类数据就显得非常重要。而随着互联网,特别是移动互联网发展,联网用户越来越多,企业业务一旦涉及到互联网,所需要处理分析的数据剧增,这时候如何从这原创 2020-11-03 22:02:23 · 944 阅读 · 1 评论 -
中文分词框架Hanlp简单案例(scala)
中文分词框架Hanlp简单案例(scala)背景在机器学习中,如果需要对中文做自然语言处理,分词的环节必不可少。有很多好用框架Hanlp就是一个分词框架案例<dependency> <groupId>com.hankcs</groupId> <artifactId>hanlp</artifactId> <version>portable-1.7.4&l原创 2020-11-01 20:39:35 · 862 阅读 · 0 评论 -
大数据机器学习之KNN(k近邻)算法Spark mllib实现案例
大数据机器学习之KNN(k近邻)算法Spark mllib实现案例背景在大数据场景下,spark框架提供了支持分类,聚合,协同过滤,回归四大类场景的mllib模块本文讲述的knn刚好是spark mllib不支持,但可以自行实现的算法。案例数据标注的训练数据label,f1,f2,f3,f4,f50,10,20,30,40,300,12,22,29,42,350,11,21,31,40,340,13,22,30,42,320,12,22,32,41,330,10,21,原创 2020-11-01 17:37:44 · 2229 阅读 · 0 评论 -
大数据开发之机器学习总结(Mllib示例)(五)
大数据开发之机器学习总结(Mllib示例)(五)背景作为spark框架中支持机器学习的模块,其算法库核心内容如下可以看到,主要就是分类,回归,决策树等算法1. 分类算法分类算法属于监督式学习,使用类标签已知的样本建立一个分类函数或分类模型,应用分类模型,能把数据库中的类标签未知的数据进行归类分类在数据挖掘中是一项重要的任务,目前在商业上应用最多,常见的典型应用场景有流失预测、精确营销、客户获取、个性偏好等MLlib 目前支持分类算法有:逻辑回归、支持向量机、朴素贝叶斯和决策树导原创 2020-10-31 22:53:59 · 342 阅读 · 0 评论 -
大数据开发之机器学习总结(Spark Mllib)(四)
大数据开发之机器学习总结(Spark Mllib)(四)背景在大数据和机器学习交叉的领域,如果公司选择了hadoop生态,结合spark框架,则spark 的mllib用于机器学习实际应用就是不二选择了。团队有spark基础,学习和适用门槛低。但如果选择python生态,则需要团队有python基础,另外个人认为,python工程化对比java生态还是差了那么一些意思。1. Spark MLLib简介spark的mllib目前支持4种常见机器学习问题,分类,回归,聚类,协同过滤。mlli原创 2020-10-31 22:24:21 · 880 阅读 · 0 评论 -
大数据开发之机器学习总结(数学知识)(三)
大数据开发之机器学习总结(三)机器学习基础数学知识5. Spark MLLib简介6. 模型评估7. Spark MLlib算法案例8.原创 2020-10-31 21:16:55 · 270 阅读 · 0 评论 -
Hive数据导入到HBase
Hive数据导入到HBase1. 背景作为一个数据处理框架,hive本身并不计算和存储数据,计算引擎一般是mapreduce,tez,spark,数据存储则是在hdfs中,元数据一般在mysql中。hive将数据计算处理之后,如果数据结果需要对外提供并且有秒或亚秒级别的访问速度,并且跟hadoop生态有较好的兼容性,则hbase是一个很好的选择。当然实际上只是数据存储,mysql,elasticsearch,clickhouse都可以胜任亚秒级别的数据访问性能。当业务需要,将hive数据导入hba原创 2020-10-27 23:06:25 · 4484 阅读 · 0 评论 -
Kylin 3.1.0新版本安装教程
Kylin 3.1.0新版本安装教程1. 背景在大数据开发中,数据处理一般分为离线和实时数据处理。而在离线数据处理中,数据需求从指标维度来看,又可以进一步划分:固定维度灵活多维度(维度最大数量固定,但维度之间会有组合)唯独不确定针对上述灵活多维度(维度最大数量固定,但维度之间会有组合),传统上可以使用hive,spark sqll等计算引擎做数据分析处理。如hive有with cube,grouping sets,roll up来做多维度计算处理。但数据计算处理之后为了保证数据查原创 2020-10-27 22:09:22 · 1223 阅读 · 0 评论 -
数仓建模和业务建模对比总结
数仓和业务建模对比总结1. 背景在大数据开发中,整个流程是数据采集,数据存储,数据传输,数据计算,数据展示。在这个过程中数据存储和数据计算是最关键2个环节。数据存储整体最关键就是各个数据库和表关系设计,这一点和业务数据库设计是一样,需要考虑数据读写方便,后续扩展方便,还需要保证性能可以满足现在以及未来一段时间的需求。本文就是讲述关于数仓建模的一些理解和实践经验分享。从大到小进行设计。2. 整体建模思路在学术界,数仓整体建模思路有2大类,一种是Bill Inmon的自上而下。另外一种是Ral原创 2020-10-27 21:41:00 · 975 阅读 · 0 评论 -
SpringBoot 搭建HBase 数据服务API接口
SpringBoot 搭建HBase 数据对外服务http API接口1. 背景在大数据开发中,数据分析结果在公司内部从数据查询速度要求来看分为2种,一种是不太在乎速度,在时间期限之前给到即可;一种是查询速度要求较高。应对查询速度较高的,有2种思路。一种是提前计算好,然后存入数据查询较快的数据库中;一种是采用高速计算引擎,当场计算。提前计算好的数据,如果数据规模较小,如亿条数据级别,可以使用如mysql集群应对。当数据再大时,使用Hbase,elasticsearch等就可以纳入技术选型视野。本原创 2020-10-27 20:01:13 · 1361 阅读 · 0 评论 -
大数据开发之机器学习总结(二)
大数据开发之机器学习总结(二)1. 精确率和召回率监督学习中,如何评估一个模型的效果,这时候就需要相办法做指标评估。监督学习中,针对分类场景,一般是分类准确率,定义为分类器对测试集正确分类的样本数与总样本数之比对于二类分类问题,常用指标就是精确率和召回率,这时候按照真实数据所属类比与模型预测结果组合划分,有如下2. 回归问题监督学习中,回归就是基于已有数据,找出输入和输出之间规律,然后根据输入的数据,得出预测的结果数据。有点类似新建一个函数,来贴合现有的函数。这叫做拟合回归问题分类原创 2020-10-24 23:02:23 · 211 阅读 · 0 评论 -
大数据开发之机器学习总结(一)
大数据开发之机器学习总结1. 背景在大数据开发中,数据分析目的一般分为2大类,一个是基于已有数据,提炼出想要的数据汇总信息。一个是基于已有数据使用算法训练出模型,基于模型预测和分析未来的新数据。前者就是很多时候的大数据分析场景,后者则涉及到算法模型,机器学习的范畴。更进一步,人工智能,但机器学习和人工智能,本身其实技术上并没有非常严格的界限。2. 机器学习概念机器学习,故名思意,让机器通过学习过去的经验数据,然后可以更好处理现在和未来的任务。官方定义,研究计算机对于特定任务的性能,逐步改善原创 2020-10-24 22:43:41 · 1239 阅读 · 0 评论 -
数仓 建模思想之星型模型、雪花模型、星座模型
数仓 建模思想之星型模型、雪花模型、星座模型1. 背景在大数据开发中,数据一般是分为事实表,维度表,实体表等表。事实表顾名思义就是记录实际发生的事情如订单表,优惠券使用表等等。维度表,顾名思义,就是一个信息有多个维度,记录这些维度值的表。如日期,产品类目等等。一般会有一个id,以及id对应的各种维度具体信息。注意,数仓建模主要就是将数据如何以数据库和表为单元,尽可能科学有效存储,方便后续的查询,分析,使用。在这个过程中,如何保证数据查询便捷性,性能,降低空间存储冗余度都是需要仔细考量的。注原创 2020-10-24 21:25:46 · 1282 阅读 · 0 评论 -
数仓 用户画像
数仓 用户画像1.背景在数仓开发中,主要目的就是2个,一个是基于现有数据提炼出规律和信息,一个是基于现有数据训练模型,然后预测未来的数据。用户画像属于前者,但由于画像的特殊性,如果一个人的画像标签较多,较完善,其实可以一定程度预测其未来行为规律。具体可以看《夏洛克》中的心理侧写,就是一样的道理,一个人有哪些特质,喜爱,偏好,憎恶等等,就可以一定程度预测这个人在某个场景下的行为规律。用户画像中,需要使用标签来给用户打标签,如果需要完整画像,还需要有模型来给各个标签一定权重,一定的算法。标签可以原创 2020-10-24 20:45:53 · 1764 阅读 · 1 评论 -
数仓 拉链表
数仓 拉链表1. 背景在数仓开发中,有时候需要记录下数据的所有历史状态,大家是否想起来,其实企业开发中代码也是有这个需求,公司中的需求文档,设计稿也都是有这个需求的。在大数据场景中,其实很多数据存储框架,都会对数据加版本,这是由于数据存储本身机制导致的。例如HBase,kafka都是有数据版本的。因为这些数据存储到磁盘时,是采取顺序写入,这样写入速度很高甚至可以达到内存随机读写的速度。不过带来的坏处就是不能像正常的数据写入更新同一条数据,而是写入一条新的数据,等到一定时机,再对这些数据做合并。而在原创 2020-10-23 22:22:34 · 573 阅读 · 0 评论 -
数仓 DW层 用户固定漏斗分析主题
数仓 DW层 用户固定漏斗分析主题1. 背景在app业务和流程设计中,页面和页面之间,流程和流程之间的每个环节并不是100%流转下去的。例如大家使用购物App,从商品详情页到下单页面,到支付页面,中间可能随时因为各种原因跳出。这时候就涉及到漏斗分析,也就是分析这些环节之间的转换率。在当今快节奏开发,推崇敏捷开发时代,不管是什么app,都不会一开始就做成尽善尽美,反而只会有核心功能,然后接入比较完整的数据分析和观察工具后,每个迭代周期根据线上数据分析和用户反馈进行迭代优化。这样就可以使用2周一个迭代的原创 2020-10-23 21:35:21 · 447 阅读 · 0 评论 -
数仓 DW层 用户留存分析主题
数仓 DW层 用户留存分析主题1. 背景在app运营和产品设计中,一般都是拉新和留存2个最关键指标来衡量对用户的吸引力程度。拉新,顾名思义, 拉新用户进来留存,顾名思义,让用户留下来,这里面有老用户也有新用户。从运营策略和效果来看,其实留住老用户的效果和成本都会比留住新用户更高,但在资本冲击之下,如果资本足够,往往会将资源往新用户上倾斜,这也是目前大数据杀熟被很多人吐槽的原因–老用户不再被重视和尊重。PS:在互联网的今天,固定类型的互联网群体其实已经差不多到顶了,也就是中国所有可以上网的人基本固原创 2020-10-23 20:53:23 · 996 阅读 · 1 评论 -
数仓 DW层 用户活跃度分析主题
数仓 DW层 用户活跃度分析主题1. 背景在大数据分析行为日志数据中,很多时候需要分析用户活跃度,这是判断业务健康程度和发展趋势的一个重要指标。当用户活跃度低的时候,就需要分析原因,改善或者添加功能,让用户活跃起来。这也是为什么支付宝一直想做社交的原因,也是为什么现在开始在支付宝内做各种业务,做小程序平台的原因。其实从侧面来看,运营一个app就跟运营一个商场一样,先把名气打起来,增加用户流入(新增用户,DAU等指标),然后留住用户(用户漏斗),然后想办法增加订单交易额(GMV)。如果可以,还需要建原创 2020-10-23 20:24:54 · 464 阅读 · 0 评论 -
数仓 DW层中主题表之站外广告分析主题
数仓 DW层中主题表之站外广告分析主题1. 背景在大数据开发中,本身的数据处理分析目的一般就是2类,一个是基于现有数据找出规律,做总结和分类统计。一个是基于现有数据找出规律,然后训练出模型,最后预测未来变化。前者就是传统的大数据分析和处理后者就是近几年火起来的机器学习大数据处理中,数据来源一般是三大类,爬虫数据,行为日志埋点数据,业务数据。当然特殊场合还会有购买来的线程数据。行为日志数据中,顾名思义,一般就是对用户行为记录的数据,由于目前都是互联网迭代敏捷开发,一个功能出现后,并不能很原创 2020-10-23 19:51:49 · 323 阅读 · 0 评论 -
数仓 DW层中主题表之广告分析主题
数仓 DW层中主题表之广告分析主题1. 背景在大数据分析中,爬虫数据,行为日志数据,2. 案例所需要指标原创 2020-10-23 17:15:39 · 940 阅读 · 0 评论 -
数仓 DW层中主题表之页面交互事件概况主题(分享,点赞,收藏)
数仓 DW层中主题表之页面交互事件概况主题(分享,点赞,收藏)1. 背景在大数据开发中,本身的数据处理分析目的一般就是2类,一个是基于现有数据找出规律,做总结和分类统计。一个是基于现有数据找出规律,然后训练出模型,最后预测未来变化。前者就是传统的大数据分析和处理后者就是近几年火起来的机器学习大数据处理中,数据来源一般是三大类,爬虫数据,行为日志埋点数据,业务数据。当然特殊场合还会有购买来的线程数据。行为日志数据中,顾名思义,一般就是对用户行为记录的数据,由于目前都是互联网迭代敏捷开发,原创 2020-10-23 16:27:06 · 538 阅读 · 0 评论 -
数仓元数据管理之Atlas 整合hive HBase Sqoop(2.1.0)
数仓元数据管理之Atlas 整合hive和HBase(2.1.0)1. 整合Hive配置了hive的钩子后,在hive中做任何操作,都会被钩子所感应到,并以事件的形式发布到kafka,然后,atlas的Ingest模块会消费到kafka中的消息,并解析生成相应的atlas元数据写入底层的Janus图数据库来存储管理;修改hive-env.shexport HIVE_AUX_JARS_PATH=/opt/apps/apache-atlas-2.1.0/hook/hive修改hive原创 2020-10-22 21:18:30 · 1639 阅读 · 3 评论 -
数仓元数据管理之Atlas web UI以及自定义开发(2.1.0)
数仓元数据管理之Atlas web UI以及自定义开发(2.1.0)1. 背景数仓开发中,当数据库,表比较多,又需要进行这些表,数据库的元数据管理和梳理时,就需要使用到元数据管理工具。atlas就是一款数仓中元数据管理框架,但由于是开源框架,本身并没有将所有企业开发中需要涉及到功能都提供,剩余部分需要自行根据需求开发,所以提供了基本的web页面和功能(个人认为就是演示使用),以及API,可以让企业按照自身需求做开发。2. web uiApacheAtlasUI功能包括4部分create原创 2020-10-22 20:56:59 · 1742 阅读 · 0 评论 -
数仓元数据管理之Atlas安装配置及原理(2.1.0)
数仓元数据管理之Atlas安装配置(2.1.0)1. 背景当开发数仓,遇到数仓中表,数据库太多,无法很好理清楚这些表之间的关系,作用时,就需要使用元数据管理框架来处理了。atlas就是数仓中做元数据管理的框架个人经历,日活百万的app,ods层算上行为日志表和业务表大概40–50张,数据量比较多.DW层,因为有DWD和DWS,增加了主题表,聚合表,各类需求初步聚合表,到了100多接近150张表,并且随着业务迭代,数量还在提升。加上需求变更,此前的旧表无法满足要求,新表不断创建,增加更快。原创 2020-10-22 20:30:51 · 1173 阅读 · 1 评论 -
数仓元数据管理之Atlas简介与编译(2.1.0)
数仓元数据管理之Atlas1. 背景在数仓开发中,由于数仓一般都会对数据做分层,ODS、DWD、DWS、ADS。每一层都会有众多数据库和数据库表,如果需要对这些数据库和表有一个较清晰梳理,仅仅使用文字,文档等工具管理是比较繁琐且低效的。为什么需要对数仓中表和数据库做管理,因为当业务数据较多,业务变得复杂,并且数仓跟随业务迭代半年到一年之后,加上人员流动,文档不齐全等原因,数仓中表,数据库及其之间关系就会变得很难直观理解,很难梳理出清晰关系。这对于后续的数仓开发和维护是很不利的。前期很多公司一般不会原创 2020-10-22 19:48:30 · 924 阅读 · 0 评论