![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
bigData
文章平均质量分 55
橘子汽水不加冰
这个作者很懒,什么都没留下…
展开
-
基于 Flink SQL CDC 的实时数据同步方案 转载
我们可以通过 CDC 把维表的数据导入到维表 Join 的状态里面,在这个 State 里面因为它是一个分布式的 State ,里面保存了 Database 里面实时的数据库维表镜像,当消息队列数据过来时候无需再次查询远程的数据库了,直接查询本地磁盘的 State ,避免了 IO 操作,实现了低延迟、高吞吐,更精准。通过这种方式提高系统的稳健性,也方便后续的维护。是的,数据同步到 kafka ,首先需要 kafka 在分区中保证有序,同一个 key 的变更数据需要打入到同一个 kafka 的分区里面。转载 2023-02-28 10:19:44 · 1244 阅读 · 1 评论 -
MYSQL 系统数据字典
查询mysql所有表数据、字段信息SELECT * FROM information_schema.`TABLES` WHERE TABLE_SCHEMA = 'xxx';根据库名获取所有表名称和表说明SELECT TABLE_NAME, TABLE_COMMENTFROM information_schema.`TABLES`WHERE TABLE_SCHEMA = 'xxx';根据库名获取所有的字段信息SELECT TABLE_SCHEMA AS '库名', T原创 2021-10-28 10:35:28 · 875 阅读 · 0 评论 -
hive 自定义UDF函数解析HTML
解析HTML 函数实现方式: 1,引入JSOUP包,解析HTML。 2,引入JEXL包,实现自动化解析JSOUP参数。 3,通过解析HTML,返回字符串通过UDF函数返回出来 4,通过HIVE创建函数并测试使用。JSOUP包maven依赖如下: <dependency> <!-- jsoup HTML parser library @ https://jsoup.org/ --> &l...原创 2021-08-13 15:00:58 · 3157 阅读 · 0 评论 -
HIVE 存储文件格式
一、ORC File文件结构 ORC的全称是(Optimized Row Columnar),ORC文件格式是一种Hadoop生态圈中的列式存储格式,它的产生早在2013年初,最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet类似,它并不是一个单纯的列式存储格式,仍然是首先根据行组分割整个表,在每一个行组内进行按列存储。ORC文件是自描述的,它的元数据使用Protocol Buffers序列化,并且文件中的数据尽可能的压缩以降低存储空间的消耗,目转载 2020-10-22 20:18:51 · 282 阅读 · 0 评论 -
HDFS,HADOOP常见参数
HDFS命令基本格式:hadoop fs -cmd < args >获取参数信息ls 命令hadoop fs -ls /列出hdfs文件系统根目录下的目录和文件hadoop fs -ls -R /列出hdfs文件系统所有的目录和文件put 命令hadoop fs -put < local file > < hdfs file >hdfs file的父目录一定要存在,否则命令不会执行hadoop fs -put < local file ..原创 2020-06-08 21:13:04 · 249 阅读 · 0 评论