自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (18)
  • 收藏
  • 关注

原创 Kafka最详细总结

KafkaKafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流...

2021-05-28 14:44:16 1389

原创 实时流式CDC Debezium

问题导读:1.什么是Debezium?2.我们能用Debezium做些什么?3.如何看待Debezium常规使用架构?1. 什么是DebeziumDebezium是一个开源的分布式平台,用于捕捉变化数据(change data capture)的场景。它可以捕捉数据库中的事件变化(例如表的增、删、改等),并将其转为事件流,使得下游应用可以看到这些变化,并作出指定响应。2. Debezium常规使用架构根据Debezium官网[1]提供的常规使用的架构图:可以看到,在对RMSDB数据..

2021-05-27 17:14:05 737

原创 数据仓库-元数据治理

一、元数据到底是个啥?如果我说:元数据(Meta Data),就是描述数据的数据。没有技术背景加持的路人粉看到这句「绕口令」,内心可能会浮现这样的想法:简单点,其实元数据相当于数据的户口本。户口本是什么?它除了包含个人姓名、年龄、性别、身份证号码等各种基本描述信息外,还有这个人和家人的血缘关系,比如说父子,兄妹等等。所有的这些信息加起来,构成对这个人的全面描述,也可以称之为这个人的元数据。同样的,如果我们要描述清楚一个实际的数据,以某张表为例,我们需要知道表名、表别名、...

2021-05-26 14:22:23 614

原创 书写高质量SQL的30条建议

1、查询SQL尽量不要使用select *,而是select具体字段。反例子:select * from employee;复制代码正例子:select id,name from employee;复制代码理由:只取需要的字段,节省资源、减少网络开销。 select * 进行查询时,很可能就不会使用到覆盖索引了,就会造成回表查询。2、如果知道查询结果只有一条或者只要最大/最小一条记录,建议用limit 1假设现在有employee员工表,要找出一个名字叫jay的人.

2021-05-26 14:11:55 101

原创 浅谈数据质量管理

基本概念数据质量管理是指为了满足信息利用的需要,对信息系统的各个信息采集点进行规范,包括建立模式化的操作规程、原始信息的校验、错误信息的反馈、矫正等一系列的过程。 数据质量管理不是一时的数据治理手段,而是循环的管理过程。 数据质量管理不仅包含了对数据质量的改善,同时还包含了对组织的改善。 为什么有这么多人强调改善数据质量管理的重要性,用一种很抽象的比喻描述,如果把整个数据应用比作人体的话,那好的数据就相当于新鲜和沸腾的血液,能让我们的身体充满活力,高效地工...

2021-05-26 14:04:42 344

原创 解决数据质量问题方案

一、相关概念1.1 数据质量数据的一组固有属性满足数据消费者要求的程度。1)数据固有属性真实性:即数据是客观世界的真实反映 及时性:即数据是随着变化及时更新的 相关性:即数据是数据消费者关注和需要的2)高质量数据满足要求(消费者角度)可得的,当数据消费者需要时能够获取到; 及时的,当需要时,数据获得且是及时更新的; 完整的,数据是完整没有遗漏的; 安全的,数据是安全的,避免非授权的访问和操控; 可理解的,数据是可理解和解释的; 正确的,数据是现实世界的真实反映。1.2

2021-05-26 11:45:20 2872

原创 数据仓库中数据质量问题解决方案

(1)数据基础建设想要有一个高质量的数据仓库,那么首先从数据仓库的设计上,我们就得有一个主题域完善,层级分明(通常分为ODS【数据源表层】,DWD【数据明细层】,DWS【数据汇总层】,DWA【数据应用层】),且数据消费场景明确,数据加工链路清晰的数据仓库体系。有了这个基础之后,我们才能对不同主题域,不同层级的数据分别进行监控。(2)数据处理监控通过数据血缘关系管理,监控并定位数据处理链路上出问题的执行节点,通过系统或者邮件或企业员工管理平台通知到相应的负责人。(3)业务系统调整响应一

2021-05-26 11:30:40 804 1

原创 Python项目代码结构详解

目录结构组织方式简要解释一下:bin/: 存放项目的一些可执行文件,当然你可以起名script/之类的也行。 luffy/: 存放项目的所有源代码。(1) 源代码中的所有模块、包都应该放在此目录。不要置于顶层目录。(2) 其子目录tests/存放单元测试代码; (3) 程序的入口最好命名为main.py。 docs/: 存放一些文档。 core/:存放核心代码 conf/:存放配置 db/:存放数据 setup.py/: 安装、部署、打包的脚本。 lib/:存放自定义的模块与包

2021-05-26 09:54:08 13347 2

原创 FLINK SQL实战案例之商品销量实时统计

问题导读1.本文的业务包含哪些流程?2.本文难点在什么地方?3.如何通过flink sql实现商品销量实时统计?1、案例背景介绍互联网电商往往需要对订单商品销量实时统计,用于实时大屏展示,库存销量监控等等。本文主要介绍如何通过flink sql的方式进行商品实时销量的统计。业务流程介绍:1.使用otter采集业务库binlog数据输出到kafka2.flink读取kafka数据进行商品销量统计3.统计结果输出到mysql4.下游业务系统直接读取mysql数据业务需求介绍:根据订单创建时间统计商品每天.

2021-05-26 09:43:36 2252 1

原创 数据模型建模详解

问题导读:1.数据层次如何划分?2.如何进行数据划分及命名空间约定?3.ODS层分为几部分?数据层次的划分 ODS: Operational Data Store,操作数据层,在结构上其与源系统的增量或者全量数据基本保持 一致。 它相当于一个数据准备区,同时又承担着基础数据的记录以及历史变化。其主要作用是把基础数据引入到MaxCompute。 CDM: Common Data Model,公共维度模型层,又细分为DWD和DWS。 它的主要作用是完成数据加工与整合、建立一致性.

2021-05-25 17:26:38 869

原创 Flink SQL CDC 的实时增量同步数据

问题导读:1、怎样实现基于 Flink SQL CDC 的数据同步方案?2、CDC 是否需要保证顺序化消费?3、GROUP BY 结果如何写到 Kafka ?传统的数据同步方案与 Flink SQL CDC 解决方案业务系统经常会遇到需要更新数据到多个存储的需求。例如:一个订单系统刚刚开始只需要写入数据库即可完成业务使用。某天 BI 团队期望对数据库做全文索引,于是我们同时要写多一份数据到 ES 中,改造后一段时间,又有需求需要写入到 Redis 缓存中。很明显这种模式是不可持续发展的,这种双写到各

2021-05-25 14:01:25 5615

原创 数据质量维度详解

什么是数据质量数据质量:一个评估规则维度提供一种测量与管理信息和数据的方式。区分规则维度有助于:将维度与业务需求相匹配,并且划分评估的先后顺序; 了解从每一维度的评估中能够/不能够得到什么; 在时间和资源有限的情况下,更好地定义和管理项目计划中的行动顺序。数据质量检核主要分为以下规则维度:完整性(Completeness):用来描述信息的完整程度。唯一性(Uniqueness):用来描述数据是否存在重复记录,没有实体多余出现一次。有效性(Validity):用来描述模型或数据是否满足用户定

2021-05-17 09:51:10 5304

Flume 抽取MYSQL Oracle数据 JSON格式 推送Kafka

Flume二次开发,支持抽取MYSQL Oracle数据库数据 以JSON格式推送至Kafka。 demo: sql_json.sources.sql_source.type = com.hbn.rdb.source.SQLSource sql_json.sources.sql_source.connectionurl = jdbc:oracle:thin:@IP:PORT/orcl sql_json.sources.sql_source.driverclass= oracle.jdbc.driver.OracleDriver sql_json.sources.sql_source.filename = sqlSource.status sql_json.sources.sql_source.customquery = SELECT INTID,ID_NO FROM TEST.TEST sql_json.sources.sql_source.begin = 0 sql_json.sources.sql_source.autoincrementfield = INTID

2022-05-28

lxml_liunx_python2.7.zip

lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高 XPath,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言,它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索 XPath的选择功能十分强大,它提供了非常简明的路径选择表达式,另外,它还提供了超过100个内建函数,用于字符串、数值、时间的匹配以及节点、序列的处理等,几乎所有我们想要定位的节点,都可以用XPath来选择.直接下载,然后放入Linux-python文件夹即可。

2021-03-11

flume-ng-elasticsearch-sink-1.8.0.jar

在Flume中的ElasticSearchSink支持Flume与Elasticsearch整合,可以将Flume采集的数据传输到Elasticsearch中,Flume版本:1.8.0,ElasticSearchSink版本:6.2.4

2020-09-18

kettle资源库表详细说明文档.xls

资源库是用来保存转换任务的,用户通过图形界面创建的的转换任务可以保存在资源库中。 资源库可以使多用户共享转换任务,转换任务在资源库中是以文件夹形式分组管理的,用户可以自定义文件夹名称。

2020-04-30

kettle资源库数据字典.xls

Kettle资源库数据字典明细:R_DATABASE:数据库连接信息 R_DIRECTORY:kettle程序目录 R_JOB:作业 R_JOB_ATTRIBUTE:作业属性 R_JOB_HOP:作业跳 R_JOB_NOTE:作业注解 R_JOBENTRY:作业项 R_JOBENTRY_ATTRIBUTE:作业项属性 R_JOBENTRY_COPY:拷贝的作业项

2020-04-30

pentaho-hadoop-shims-cdh513-package-8.3.2019.05.00-371-dist.zip

大数据ETL开源软件Kettle连接Hadoop时使用到得Shims 配置Pentaho组件Shims Shims是Pentaho提供的一系列连接各个source的适配器,具体配置位置根据Pentaho的组件来决定,现在的PDI Spoon的配置位置在../data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations 下,注意这个地方要配置好对应数据源的shims

2020-03-20

pentaho-hadoop-shims-cdh57-package-70.2016.10.00-25-dist.zip

大数据ETL开源软件Kettle连接Hadoop时使用到得Shims 配置Pentaho组件Shims Shims是Pentaho提供的一系列连接各个source的适配器,具体配置位置根据Pentaho的组件来决定,现在的PDI Spoon的配置位置在../data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations 下,注意这个地方要配置好对应数据源的shims

2020-03-20

pentaho-hadoop-shims-cdh514-package-8.3.2019.05.00-371-dist.zip

大数据ETL开源软件Kettle连接Hadoop时使用到得Shims 配置Pentaho组件Shims Shims是Pentaho提供的一系列连接各个source的适配器,具体配置位置根据Pentaho的组件来决定,现在的PDI Spoon的配置位置在../data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations 下,注意这个地方要配置好对应数据源的shims

2020-03-19

pentaho-hadoop-shims-cdh58-package-70.2016.10.00-25-dist.zip

大数据ETL开源软件Kettle连接Hadoop时使用到得Shims 配置Pentaho组件Shims Shims是Pentaho提供的一系列连接各个source的适配器,具体配置位置根据Pentaho的组件来决定,现在的PDI Spoon的配置位置在../data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations 下,注意这个地方要配置好对应数据源的shims

2020-03-19

Araxis Merge v6.5 NSIS文本对比.rar

Araxis Merge 是一款专业的可视化文件比较以及合并和同步的软件,同时也是该软件目前最新的版本,新版带来了全新的功能以及优化,包括合并使您能够比较和处理不同版本的文本文件,如程序源代码,XML和HTML文件。合并可以从Microsoft Office,OpenDocument,PDF和RTF文件中提取和比较文本。XML文件可以以特殊格式显示,帮助您更清楚地看到更改。它支持ASCII,MBCS和Unicode字符编码的文件。

2019-12-19

xdown-1.0.1.4.zip

Xdown是一款超级强大的开源免费无广告的Torrent/磁力链/百度云下载神器。Xdown不光如此还支持BT,免费的IDM+torrent 可以多线程128并发的下载工具.

2019-12-11

z501_touchpad_win7.rar

TOUCHPAD采用多指触控技术,突破性实现了多个手指触摸行为的组合行为识别。通过不同自定义手势,可以轻松完成开启、翻页、伸缩等多种强大功能,实现了用简单的手指触摸行为完成复杂的人机交互。 下载安装即可,非常方便

2019-12-11

influxdb_demo.zip

InfluxDB(时序数据库),常用的一种使用场景:监控数据统计。每毫秒记录一下电脑内存的使用情况,然后就可以根据统计的数据,利用图形化界面(InfluxDB V1一般配合Grafana)制作内存使用情况的折线图; 可以理解为按时间记录一些数据(常用的监控数据、埋点统计数据等),然后制作图表做统计;

2019-11-22

KeyFreeze键盘鼠标上锁工具

KeyFreeze键盘鼠标上锁工具,直接解压,并运行KeyFreeze.exe,点击右键设置;锁住键盘和鼠标,解锁Ctrl+F

2019-11-15

GitHub Windows版本 客户端

GitHub Windows版本 客户端直接解压,安装即可使用,直接登录GitHub,方便提交代码以及维护代码

2019-11-15

raidrive-1-8-0版本网盘映射到本地磁盘工具

RaiDrive是能够将一些网盘映射为本地网络磁盘的工具,RaiDrive可以方便的将网盘映射为本机的网络磁盘,而在支持的网盘有Google Drive, Google Shared drives,Google Photos, OneDrive, SharePoint,Dropbox, Box, pCloud, Yandex Disk,WebDAV, SFTP, FTP

2019-11-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除