- 博客(12)
- 资源 (18)
- 收藏
- 关注
原创 Kafka最详细总结
KafkaKafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流...
2021-05-28 14:44:16 1389
原创 实时流式CDC Debezium
问题导读:1.什么是Debezium?2.我们能用Debezium做些什么?3.如何看待Debezium常规使用架构?1. 什么是DebeziumDebezium是一个开源的分布式平台,用于捕捉变化数据(change data capture)的场景。它可以捕捉数据库中的事件变化(例如表的增、删、改等),并将其转为事件流,使得下游应用可以看到这些变化,并作出指定响应。2. Debezium常规使用架构根据Debezium官网[1]提供的常规使用的架构图:可以看到,在对RMSDB数据..
2021-05-27 17:14:05 737
原创 数据仓库-元数据治理
一、元数据到底是个啥?如果我说:元数据(Meta Data),就是描述数据的数据。没有技术背景加持的路人粉看到这句「绕口令」,内心可能会浮现这样的想法:简单点,其实元数据相当于数据的户口本。户口本是什么?它除了包含个人姓名、年龄、性别、身份证号码等各种基本描述信息外,还有这个人和家人的血缘关系,比如说父子,兄妹等等。所有的这些信息加起来,构成对这个人的全面描述,也可以称之为这个人的元数据。同样的,如果我们要描述清楚一个实际的数据,以某张表为例,我们需要知道表名、表别名、...
2021-05-26 14:22:23 614
原创 书写高质量SQL的30条建议
1、查询SQL尽量不要使用select *,而是select具体字段。反例子:select * from employee;复制代码正例子:select id,name from employee;复制代码理由:只取需要的字段,节省资源、减少网络开销。 select * 进行查询时,很可能就不会使用到覆盖索引了,就会造成回表查询。2、如果知道查询结果只有一条或者只要最大/最小一条记录,建议用limit 1假设现在有employee员工表,要找出一个名字叫jay的人.
2021-05-26 14:11:55 101
原创 浅谈数据质量管理
基本概念数据质量管理是指为了满足信息利用的需要,对信息系统的各个信息采集点进行规范,包括建立模式化的操作规程、原始信息的校验、错误信息的反馈、矫正等一系列的过程。 数据质量管理不是一时的数据治理手段,而是循环的管理过程。 数据质量管理不仅包含了对数据质量的改善,同时还包含了对组织的改善。 为什么有这么多人强调改善数据质量管理的重要性,用一种很抽象的比喻描述,如果把整个数据应用比作人体的话,那好的数据就相当于新鲜和沸腾的血液,能让我们的身体充满活力,高效地工...
2021-05-26 14:04:42 344
原创 解决数据质量问题方案
一、相关概念1.1 数据质量数据的一组固有属性满足数据消费者要求的程度。1)数据固有属性真实性:即数据是客观世界的真实反映 及时性:即数据是随着变化及时更新的 相关性:即数据是数据消费者关注和需要的2)高质量数据满足要求(消费者角度)可得的,当数据消费者需要时能够获取到; 及时的,当需要时,数据获得且是及时更新的; 完整的,数据是完整没有遗漏的; 安全的,数据是安全的,避免非授权的访问和操控; 可理解的,数据是可理解和解释的; 正确的,数据是现实世界的真实反映。1.2
2021-05-26 11:45:20 2872
原创 数据仓库中数据质量问题解决方案
(1)数据基础建设想要有一个高质量的数据仓库,那么首先从数据仓库的设计上,我们就得有一个主题域完善,层级分明(通常分为ODS【数据源表层】,DWD【数据明细层】,DWS【数据汇总层】,DWA【数据应用层】),且数据消费场景明确,数据加工链路清晰的数据仓库体系。有了这个基础之后,我们才能对不同主题域,不同层级的数据分别进行监控。(2)数据处理监控通过数据血缘关系管理,监控并定位数据处理链路上出问题的执行节点,通过系统或者邮件或企业员工管理平台通知到相应的负责人。(3)业务系统调整响应一
2021-05-26 11:30:40 804 1
原创 Python项目代码结构详解
目录结构组织方式简要解释一下:bin/: 存放项目的一些可执行文件,当然你可以起名script/之类的也行。 luffy/: 存放项目的所有源代码。(1) 源代码中的所有模块、包都应该放在此目录。不要置于顶层目录。(2) 其子目录tests/存放单元测试代码; (3) 程序的入口最好命名为main.py。 docs/: 存放一些文档。 core/:存放核心代码 conf/:存放配置 db/:存放数据 setup.py/: 安装、部署、打包的脚本。 lib/:存放自定义的模块与包
2021-05-26 09:54:08 13347 2
原创 FLINK SQL实战案例之商品销量实时统计
问题导读1.本文的业务包含哪些流程?2.本文难点在什么地方?3.如何通过flink sql实现商品销量实时统计?1、案例背景介绍互联网电商往往需要对订单商品销量实时统计,用于实时大屏展示,库存销量监控等等。本文主要介绍如何通过flink sql的方式进行商品实时销量的统计。业务流程介绍:1.使用otter采集业务库binlog数据输出到kafka2.flink读取kafka数据进行商品销量统计3.统计结果输出到mysql4.下游业务系统直接读取mysql数据业务需求介绍:根据订单创建时间统计商品每天.
2021-05-26 09:43:36 2252 1
原创 数据模型建模详解
问题导读:1.数据层次如何划分?2.如何进行数据划分及命名空间约定?3.ODS层分为几部分?数据层次的划分 ODS: Operational Data Store,操作数据层,在结构上其与源系统的增量或者全量数据基本保持 一致。 它相当于一个数据准备区,同时又承担着基础数据的记录以及历史变化。其主要作用是把基础数据引入到MaxCompute。 CDM: Common Data Model,公共维度模型层,又细分为DWD和DWS。 它的主要作用是完成数据加工与整合、建立一致性.
2021-05-25 17:26:38 869
原创 Flink SQL CDC 的实时增量同步数据
问题导读:1、怎样实现基于 Flink SQL CDC 的数据同步方案?2、CDC 是否需要保证顺序化消费?3、GROUP BY 结果如何写到 Kafka ?传统的数据同步方案与 Flink SQL CDC 解决方案业务系统经常会遇到需要更新数据到多个存储的需求。例如:一个订单系统刚刚开始只需要写入数据库即可完成业务使用。某天 BI 团队期望对数据库做全文索引,于是我们同时要写多一份数据到 ES 中,改造后一段时间,又有需求需要写入到 Redis 缓存中。很明显这种模式是不可持续发展的,这种双写到各
2021-05-25 14:01:25 5615
原创 数据质量维度详解
什么是数据质量数据质量:一个评估规则维度提供一种测量与管理信息和数据的方式。区分规则维度有助于:将维度与业务需求相匹配,并且划分评估的先后顺序; 了解从每一维度的评估中能够/不能够得到什么; 在时间和资源有限的情况下,更好地定义和管理项目计划中的行动顺序。数据质量检核主要分为以下规则维度:完整性(Completeness):用来描述信息的完整程度。唯一性(Uniqueness):用来描述数据是否存在重复记录,没有实体多余出现一次。有效性(Validity):用来描述模型或数据是否满足用户定
2021-05-17 09:51:10 5304
Flume 抽取MYSQL Oracle数据 JSON格式 推送Kafka
2022-05-28
lxml_liunx_python2.7.zip
2021-03-11
flume-ng-elasticsearch-sink-1.8.0.jar
2020-09-18
kettle资源库表详细说明文档.xls
2020-04-30
kettle资源库数据字典.xls
2020-04-30
pentaho-hadoop-shims-cdh513-package-8.3.2019.05.00-371-dist.zip
2020-03-20
pentaho-hadoop-shims-cdh57-package-70.2016.10.00-25-dist.zip
2020-03-20
pentaho-hadoop-shims-cdh514-package-8.3.2019.05.00-371-dist.zip
2020-03-19
pentaho-hadoop-shims-cdh58-package-70.2016.10.00-25-dist.zip
2020-03-19
Araxis Merge v6.5 NSIS文本对比.rar
2019-12-19
xdown-1.0.1.4.zip
2019-12-11
z501_touchpad_win7.rar
2019-12-11
influxdb_demo.zip
2019-11-22
raidrive-1-8-0版本网盘映射到本地磁盘工具
2019-11-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人