- 博客(9)
- 收藏
- 关注
原创 ETL,数据搬迁。
实现ETL,首先要实现ETL转换的过程。体现为以下几个方面:1、空值处理:可捕获字段空值,进行加载或替换为其他含义数据,并可根据字段空值实现分流加载到不同目标库。2、规范化数据格式:可实现字段格式约束定义,对于数据源中时间、数值、字符等数据,可自定义加载格式。3、拆分数据:依据业务需求对字段可进行分解。例,主叫号 861082585313-8148,可进行区域码和电话号码分解。4、...
2019-01-05 18:04:34 355
转载 基于 Flink SQL CDC 的实时数据同步方案 转载
我们可以通过 CDC 把维表的数据导入到维表 Join 的状态里面,在这个 State 里面因为它是一个分布式的 State ,里面保存了 Database 里面实时的数据库维表镜像,当消息队列数据过来时候无需再次查询远程的数据库了,直接查询本地磁盘的 State ,避免了 IO 操作,实现了低延迟、高吞吐,更精准。通过这种方式提高系统的稳健性,也方便后续的维护。是的,数据同步到 kafka ,首先需要 kafka 在分区中保证有序,同一个 key 的变更数据需要打入到同一个 kafka 的分区里面。
2023-02-28 10:19:44 1275 1
原创 MYSQL 系统数据字典
查询mysql所有表数据、字段信息SELECT * FROM information_schema.`TABLES` WHERE TABLE_SCHEMA = 'xxx';根据库名获取所有表名称和表说明SELECT TABLE_NAME, TABLE_COMMENTFROM information_schema.`TABLES`WHERE TABLE_SCHEMA = 'xxx';根据库名获取所有的字段信息SELECT TABLE_SCHEMA AS '库名', T
2021-10-28 10:35:28 907
原创 hive 自定义UDF函数解析HTML
解析HTML 函数实现方式: 1,引入JSOUP包,解析HTML。 2,引入JEXL包,实现自动化解析JSOUP参数。 3,通过解析HTML,返回字符串通过UDF函数返回出来 4,通过HIVE创建函数并测试使用。JSOUP包maven依赖如下: <dependency> <!-- jsoup HTML parser library @ https://jsoup.org/ --> &l...
2021-08-13 15:00:58 3753
转载 HIVE 存储文件格式
一、ORC File文件结构 ORC的全称是(Optimized Row Columnar),ORC文件格式是一种Hadoop生态圈中的列式存储格式,它的产生早在2013年初,最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet类似,它并不是一个单纯的列式存储格式,仍然是首先根据行组分割整个表,在每一个行组内进行按列存储。ORC文件是自描述的,它的元数据使用Protocol Buffers序列化,并且文件中的数据尽可能的压缩以降低存储空间的消耗,目
2020-10-22 20:18:51 320
原创 GreenPlum数据常用语句
1,GreenPlumn空间查询磁盘空间查询SELECT * FROM gp_toolkit.gp_disk_free ORDER BY dfsegment;文件空间查询select a.dbid, a.content, a.role, a.port, a.hostname, b.fsname, c.fselocation from gp_segment_configuration a, pg_fil...
2020-09-01 20:59:40 860
原创 HDFS,HADOOP常见参数
HDFS命令基本格式:hadoop fs -cmd < args >获取参数信息ls 命令hadoop fs -ls /列出hdfs文件系统根目录下的目录和文件hadoop fs -ls -R /列出hdfs文件系统所有的目录和文件put 命令hadoop fs -put < local file > < hdfs file >hdfs file的父目录一定要存在,否则命令不会执行hadoop fs -put < local file ..
2020-06-08 21:13:04 271
原创 ORACLE使用中的查询系统表相关记录
-- 加ORACLE并发 /*+parallel(t,10) (b,10)*/-- NOLOGGING 无日志 CREATE TABLE table_name NOLOGGING-- ORACLE进程查询select sess.sid,sess.serial#,lo.oracle_username,lo.os_user_name,ao.object_name,lo.locked_modefrom v$locked_object lo,dba_objects ao.
2020-06-08 20:58:25 214
原创 ORACLE优化原理
ORCLE优化原理 , 解析SQL过程T-SQL在查询各个阶级分别干了什么:(1)FROM 阶段FROM阶段标识出查询的来源表,并处理表运算符。在涉及到联接运算的查询中(各种join),主要有以下几个步骤: a.求笛卡尔积。不论是什么类型的联接运算,首先都是执行交叉连接(cross join),求笛卡儿积,生成虚拟表VT1-J1。b.ON筛选器。这个阶段对上个步骤生成的VT1-J1进行筛选,根据ON子句中出现的谓词进行筛选,让谓词取值为true的行通过了考验,插入到V...
2020-06-08 20:53:48 229
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人