2021年05月_000X000

12月 11月 08月 07月 06月 05月 04月 03月 02月

原创 Kafka最详细总结

KafkaKafka是最初由Linkedin公司开发，是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流...

2021-05-28 14:44:16 1389

问题导读:1.什么是Debezium?2.我们能用Debezium做些什么?3.如何看待Debezium常规使用架构?1. 什么是DebeziumDebezium是一个开源的分布式平台，用于捕捉变化数据（change data capture）的场景。它可以捕捉数据库中的事件变化（例如表的增、删、改等），并将其转为事件流，使得下游应用可以看到这些变化，并作出指定响应。2. Debezium常规使用架构根据Debezium官网[1]提供的常规使用的架构图：可以看到，在对RMSDB数据..

2021-05-27 17:14:05 737

原创数据仓库-元数据治理

一、元数据到底是个啥？如果我说：元数据（Meta Data），就是描述数据的数据。没有技术背景加持的路人粉看到这句「绕口令」，内心可能会浮现这样的想法：简单点，其实元数据相当于数据的户口本。户口本是什么？它除了包含个人姓名、年龄、性别、身份证号码等各种基本描述信息外，还有这个人和家人的血缘关系，比如说父子，兄妹等等。所有的这些信息加起来，构成对这个人的全面描述，也可以称之为这个人的元数据。同样的，如果我们要描述清楚一个实际的数据，以某张表为例，我们需要知道表名、表别名、...

2021-05-26 14:22:23 614

原创书写高质量SQL的30条建议

1、查询SQL尽量不要使用select *，而是select具体字段。反例子：select * from employee;复制代码正例子：select id，name from employee;复制代码理由：只取需要的字段，节省资源、减少网络开销。 select * 进行查询时，很可能就不会使用到覆盖索引了，就会造成回表查询。2、如果知道查询结果只有一条或者只要最大/最小一条记录，建议用limit 1假设现在有employee员工表，要找出一个名字叫jay的人.

2021-05-26 14:11:55 101

原创浅谈数据质量管理

基本概念数据质量管理是指为了满足信息利用的需要，对信息系统的各个信息采集点进行规范，包括建立模式化的操作规程、原始信息的校验、错误信息的反馈、矫正等一系列的过程。数据质量管理不是一时的数据治理手段，而是循环的管理过程。数据质量管理不仅包含了对数据质量的改善，同时还包含了对组织的改善。为什么有这么多人强调改善数据质量管理的重要性，用一种很抽象的比喻描述，如果把整个数据应用比作人体的话，那好的数据就相当于新鲜和沸腾的血液，能让我们的身体充满活力，高效地工...

2021-05-26 14:04:42 344

原创解决数据质量问题方案

一、相关概念1.1 数据质量数据的一组固有属性满足数据消费者要求的程度。1）数据固有属性真实性：即数据是客观世界的真实反映及时性：即数据是随着变化及时更新的相关性：即数据是数据消费者关注和需要的2）高质量数据满足要求（消费者角度）可得的，当数据消费者需要时能够获取到；及时的，当需要时，数据获得且是及时更新的；完整的，数据是完整没有遗漏的；安全的，数据是安全的，避免非授权的访问和操控；可理解的，数据是可理解和解释的；正确的，数据是现实世界的真实反映。1.2

2021-05-26 11:45:20 2872

原创数据仓库中数据质量问题解决方案

（1）数据基础建设想要有一个高质量的数据仓库，那么首先从数据仓库的设计上，我们就得有一个主题域完善，层级分明（通常分为ODS【数据源表层】，DWD【数据明细层】，DWS【数据汇总层】，DWA【数据应用层】），且数据消费场景明确，数据加工链路清晰的数据仓库体系。有了这个基础之后，我们才能对不同主题域，不同层级的数据分别进行监控。（2）数据处理监控通过数据血缘关系管理，监控并定位数据处理链路上出问题的执行节点，通过系统或者邮件或企业员工管理平台通知到相应的负责人。（3）业务系统调整响应一

2021-05-26 11:30:40 804 1

原创 Python项目代码结构详解

目录结构组织方式简要解释一下:bin/: 存放项目的一些可执行文件，当然你可以起名script/之类的也行。 luffy/: 存放项目的所有源代码。(1) 源代码中的所有模块、包都应该放在此目录。不要置于顶层目录。(2) 其子目录tests/存放单元测试代码； (3) 程序的入口最好命名为main.py。 docs/: 存放一些文档。 core/:存放核心代码 conf/:存放配置 db/:存放数据 setup.py/: 安装、部署、打包的脚本。 lib/:存放自定义的模块与包

2021-05-26 09:54:08 13347 2

原创 FLINK SQL实战案例之商品销量实时统计

问题导读1.本文的业务包含哪些流程？2.本文难点在什么地方？3.如何通过flink sql实现商品销量实时统计？1、案例背景介绍互联网电商往往需要对订单商品销量实时统计，用于实时大屏展示，库存销量监控等等。本文主要介绍如何通过flink sql的方式进行商品实时销量的统计。业务流程介绍：1.使用otter采集业务库binlog数据输出到kafka2.flink读取kafka数据进行商品销量统计3.统计结果输出到mysql4.下游业务系统直接读取mysql数据业务需求介绍：根据订单创建时间统计商品每天.

2021-05-26 09:43:36 2252 1

原创数据模型建模详解

问题导读:1.数据层次如何划分?2.如何进行数据划分及命名空间约定?3.ODS层分为几部分?数据层次的划分 ODS： Operational Data Store，操作数据层，在结构上其与源系统的增量或者全量数据基本保持一致。它相当于一个数据准备区，同时又承担着基础数据的记录以及历史变化。其主要作用是把基础数据引入到MaxCompute。 CDM： Common Data Model，公共维度模型层，又细分为DWD和DWS。它的主要作用是完成数据加工与整合、建立一致性.

2021-05-25 17:26:38 869

原创 Flink SQL CDC 的实时增量同步数据

问题导读：1、怎样实现基于 Flink SQL CDC 的数据同步方案？2、CDC 是否需要保证顺序化消费？3、GROUP BY 结果如何写到 Kafka ？传统的数据同步方案与 Flink SQL CDC 解决方案业务系统经常会遇到需要更新数据到多个存储的需求。例如：一个订单系统刚刚开始只需要写入数据库即可完成业务使用。某天 BI 团队期望对数据库做全文索引，于是我们同时要写多一份数据到 ES 中，改造后一段时间，又有需求需要写入到 Redis 缓存中。很明显这种模式是不可持续发展的，这种双写到各

2021-05-25 14:01:25 5615

原创数据质量维度详解

什么是数据质量数据质量：一个评估规则维度提供一种测量与管理信息和数据的方式。区分规则维度有助于：将维度与业务需求相匹配，并且划分评估的先后顺序；了解从每一维度的评估中能够/不能够得到什么；在时间和资源有限的情况下，更好地定义和管理项目计划中的行动顺序。数据质量检核主要分为以下规则维度：完整性（Completeness）：用来描述信息的完整程度。唯一性（Uniqueness）：用来描述数据是否存在重复记录，没有实体多余出现一次。有效性（Validity）：用来描述模型或数据是否满足用户定

2021-05-17 09:51:10 5304

Flume 抽取MYSQL Oracle数据 JSON格式推送Kafka

Flume二次开发，支持抽取MYSQL Oracle数据库数据以JSON格式推送至Kafka。 demo： sql_json.sources.sql_source.type = com.hbn.rdb.source.SQLSource sql_json.sources.sql_source.connectionurl = jdbc:oracle:thin:@IP:PORT/orcl sql_json.sources.sql_source.driverclass= oracle.jdbc.driver.OracleDriver sql_json.sources.sql_source.filename = sqlSource.status sql_json.sources.sql_source.customquery = SELECT INTID,ID_NO FROM TEST.TEST sql_json.sources.sql_source.begin = 0 sql_json.sources.sql_source.autoincrementfield = INTID

2022-05-28

lxml_liunx_python2.7.zip

lxml是python的一个解析库，支持HTML和XML的解析，支持XPath解析方式，而且解析效率非常高 XPath，全称XML Path Language，即XML路径语言，它是一门在XML文档中查找信息的语言，它最初是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索 XPath的选择功能十分强大，它提供了非常简明的路径选择表达式，另外，它还提供了超过100个内建函数，用于字符串、数值、时间的匹配以及节点、序列的处理等，几乎所有我们想要定位的节点，都可以用XPath来选择.直接下载，然后放入Linux-python文件夹即可。

2021-03-11

flume-ng-elasticsearch-sink-1.8.0.jar

在Flume中的ElasticSearchSink支持Flume与Elasticsearch整合，可以将Flume采集的数据传输到Elasticsearch中，Flume版本：1.8.0，ElasticSearchSink版本：6.2.4

2020-09-18

kettle资源库表详细说明文档.xls

资源库是用来保存转换任务的，用户通过图形界面创建的的转换任务可以保存在资源库中。资源库可以使多用户共享转换任务，转换任务在资源库中是以文件夹形式分组管理的，用户可以自定义文件夹名称。

2020-04-30

kettle资源库数据字典.xls

Kettle资源库数据字典明细：R_DATABASE：数据库连接信息 R_DIRECTORY：kettle程序目录 R_JOB：作业 R_JOB_ATTRIBUTE：作业属性 R_JOB_HOP：作业跳 R_JOB_NOTE：作业注解 R_JOBENTRY：作业项 R_JOBENTRY_ATTRIBUTE：作业项属性 R_JOBENTRY_COPY：拷贝的作业项

2020-04-30

pentaho-hadoop-shims-cdh513-package-8.3.2019.05.00-371-dist.zip

大数据ETL开源软件Kettle连接Hadoop时使用到得Shims 配置Pentaho组件Shims Shims是Pentaho提供的一系列连接各个source的适配器,具体配置位置根据Pentaho的组件来决定，现在的PDI Spoon的配置位置在../data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations 下，注意这个地方要配置好对应数据源的shims

2020-03-20

pentaho-hadoop-shims-cdh57-package-70.2016.10.00-25-dist.zip

2020-03-20

pentaho-hadoop-shims-cdh514-package-8.3.2019.05.00-371-dist.zip

2020-03-19

pentaho-hadoop-shims-cdh58-package-70.2016.10.00-25-dist.zip

2020-03-19

Araxis Merge v6.5 NSIS文本对比.rar

Araxis Merge 是一款专业的可视化文件比较以及合并和同步的软件，同时也是该软件目前最新的版本，新版带来了全新的功能以及优化，包括合并使您能够比较和处理不同版本的文本文件，如程序源代码，XML和HTML文件。合并可以从Microsoft Office，OpenDocument，PDF和RTF文件中提取和比较文本。XML文件可以以特殊格式显示，帮助您更清楚地看到更改。它支持ASCII，MBCS和Unicode字符编码的文件。

2019-12-19

xdown-1.0.1.4.zip

Xdown是一款超级强大的开源免费无广告的Torrent/磁力链/百度云下载神器。Xdown不光如此还支持BT，免费的IDM+torrent 可以多线程128并发的下载工具.

2019-12-11

z501_touchpad_win7.rar

TOUCHPAD采用多指触控技术，突破性实现了多个手指触摸行为的组合行为识别。通过不同自定义手势，可以轻松完成开启、翻页、伸缩等多种强大功能，实现了用简单的手指触摸行为完成复杂的人机交互。下载安装即可，非常方便

2019-12-11

influxdb_demo.zip

InfluxDB（时序数据库），常用的一种使用场景：监控数据统计。每毫秒记录一下电脑内存的使用情况，然后就可以根据统计的数据，利用图形化界面（InfluxDB V1一般配合Grafana）制作内存使用情况的折线图；可以理解为按时间记录一些数据（常用的监控数据、埋点统计数据等），然后制作图表做统计；

2019-11-22

KeyFreeze键盘鼠标上锁工具

KeyFreeze键盘鼠标上锁工具，直接解压，并运行KeyFreeze.exe，点击右键设置；锁住键盘和鼠标，解锁Ctrl+F

2019-11-15

GitHub Windows版本客户端

GitHub Windows版本客户端直接解压，安装即可使用，直接登录GitHub，方便提交代码以及维护代码

2019-11-15

raidrive-1-8-0版本网盘映射到本地磁盘工具

RaiDrive是能够将一些网盘映射为本地网络磁盘的工具，RaiDrive可以方便的将网盘映射为本机的网络磁盘，而在支持的网盘有Google Drive, Google Shared drives,Google Photos, OneDrive, SharePoint,Dropbox, Box, pCloud, Yandex Disk,WebDAV, SFTP, FTP

2019-11-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

ytp552200ytp的博客

原创 Kafka最详细总结

原创实时流式CDC Debezium

原创数据仓库-元数据治理

原创书写高质量SQL的30条建议

原创浅谈数据质量管理

原创解决数据质量问题方案

原创数据仓库中数据质量问题解决方案

原创 Python项目代码结构详解

原创 FLINK SQL实战案例之商品销量实时统计

原创数据模型建模详解

原创 Flink SQL CDC 的实时增量同步数据

原创数据质量维度详解

Flume 抽取MYSQL Oracle数据 JSON格式推送Kafka

lxml_liunx_python2.7.zip

flume-ng-elasticsearch-sink-1.8.0.jar

kettle资源库表详细说明文档.xls

kettle资源库数据字典.xls

pentaho-hadoop-shims-cdh513-package-8.3.2019.05.00-371-dist.zip

pentaho-hadoop-shims-cdh57-package-70.2016.10.00-25-dist.zip

pentaho-hadoop-shims-cdh514-package-8.3.2019.05.00-371-dist.zip

pentaho-hadoop-shims-cdh58-package-70.2016.10.00-25-dist.zip

Araxis Merge v6.5 NSIS文本对比.rar

xdown-1.0.1.4.zip

z501_touchpad_win7.rar

influxdb_demo.zip

KeyFreeze键盘鼠标上锁工具

GitHub Windows版本客户端

raidrive-1-8-0版本网盘映射到本地磁盘工具

空空如也

Flume 抽取MYSQL Oracle数据 JSON格式 推送Kafka

lxml_liunx_python2.7.zip

flume-ng-elasticsearch-sink-1.8.0.jar

kettle资源库表详细说明文档.xls

kettle资源库数据字典.xls

pentaho-hadoop-shims-cdh513-package-8.3.2019.05.00-371-dist.zip

pentaho-hadoop-shims-cdh57-package-70.2016.10.00-25-dist.zip

pentaho-hadoop-shims-cdh514-package-8.3.2019.05.00-371-dist.zip

pentaho-hadoop-shims-cdh58-package-70.2016.10.00-25-dist.zip

Araxis Merge v6.5 NSIS文本对比.rar

xdown-1.0.1.4.zip

z501_touchpad_win7.rar

influxdb_demo.zip

KeyFreeze键盘鼠标上锁工具

GitHub Windows版本 客户端

raidrive-1-8-0版本网盘映射到本地磁盘工具

空空如也

Flume 抽取MYSQL Oracle数据 JSON格式推送Kafka

GitHub Windows版本客户端