请学习好嘛-CSDN博客

原创 flinkCDC3.0，mysql source字段类型转换，TINYINT(1)转化为boolean

最近在尝试flinkCDC3.0的pipeline功能同步数据至doris以备实时数仓的开发，总结几点，新功能很方便，通过配置文件的方式可以采集多个表，不用单独写一个一个的flinkSQL配置，而且可以动态监控表创建、字段变更、数据变更等，非常的方便。美中不足的是目前不支持application方式提交，且检查点重启配置，任务执行日志监控等相对于比较的模糊。2、找到flink-cdc-connect模块下的子模块flink-cdc-pipeline-connector-mysql，在Utils包下找到。

2024-12-12 20:45:41 909

原创 mysql建表语句转为hive建表语句，mysql ddl转为hive ddl

mysql建表语句转为hive建表语句，mysql ddl转为hive ddl

2023-08-04 18:51:03 723 1

原创 hive怎么通过explain查看数据倾斜，主要看哪些信息？

在 Hive 中，可以通过 EXPLAIN 命令查看查询语句的执行计划。如果查询语句中存在数据倾斜的情况，可以通过查看执行计划中的某些信息来判断数据倾斜的情况

2023-03-11 17:51:27 1110

原创 HiveSQL的执行流程

HiveSQL的执行流程

2023-03-11 14:21:42 1722

原创 hive sql练习题（想起来就随便找几道HQL练习练习，持续更新）

hive sql练习题（想起来就随便找几道HQL练习练习，持续更新）

2023-03-10 18:46:33 630

原创 Failed to execute goal org.scala-tools:maven-scala-plugin:2.15.2:compile (default)

Failed to execute goal org.scala-tools:maven-scala-plugin:2.15.2:compile (default) on project graduation: wrap: org.apache.commons.exec.ExecuteException: Process exited with an error: 1(Exit value: 1)

2023-01-16 00:14:08 981

原创解决idea本地使用sparkSQL操作hdfs文件load命令不生效的情况，并对hive表库进行操作

解决idea本地使用sparkSQL操作hdfs文件load命令不生效的情况，并对hive表库进行操作

2023-01-12 14:37:29 634

原创 spring boot java项目整合Scala&Spark，接口api调用方式调用scala代码，配置分享

spring boot整合scala和spark

2023-01-10 19:38:04 2671

原创 SpringBoot整合hdfs，实现文件上传下载删除与批量删除，以及vue前端发送请求，实现前后端交互功能；

spring boot整合hdfs

2023-01-07 23:18:05 2411 1

原创解决vue create 创建项目只有两个文件

本人学习node和vue准备做大数据毕业设计，中途下载vue后使用vue create aaa 命令创建一个项目时，发现只有两个文件，我花了很多时间去查资料找博文，最终发现是和的我windows下的hadoop安装包冲突了，导致yarn命令发现异常。2.修改C:\Users\你的电脑用户名下的.vuerc文件，把"packageManager": "yarn"这一行数据里面的yarn替换成npm，由此解决。1.删除hadoop的安装路径，删除hadoop的所有环境变量信息。

2022-12-30 23:42:21 1305 3

原创 hive开窗函数，排名函数的坑

今天碰到一个小bug，虽然说不是非常严重，但是也花了一点时间来排查。当我们用hive的rank()或者row_number()函数的时候，一般会根据里面的某个唯一列(例如user_id)进行分区，然后order by他的某个时间字段(例如update_time),比如我们需要求某个用户每天登陆的最后登录时间，登录表里面用户可能有多条登录信息，那么我们可能要把数据清洗去重，得到登录时间最晚的那一条记录，此时可以用到开窗函数，整体的写法为:row_number() over(partition by user_

2022-11-11 22:07:33 1011

原创 HBase的数据写入流程（详细）

HBase的数据写入流程

2022-06-15 22:20:24 1960

原创 java中final、finally、finalize的区别？

1.final是修饰符关键字，用来修饰类，属性和方法修饰类的时候表示这个类不能被继承；修饰属性的时候表示这个属性不能被修改，且必须要有初始值，被引用时也不能被修改，即常量；修饰方法时表示该方法不能被重写。2.finally是try..catch方法中最终需要执行的代码块标识，这就意味着程序无论正常执行还是发生异常，这里的代码只要JVM不关闭都能执行，可以将释放外部资源的代码写在finally块中3.finalize，Object超类中的方法，垃圾回收器中在销毁对象时调用的一个方法，通过重写fin

2022-05-25 19:52:04 654

原创 zookeeper的选举机制（五台节点）

☆：节点一到节点五的myid分别是1,2,3,4,5zookeeper对leader的选举往往分为两个方面，细分的话可以分为三个方面第一个是zookeeper集群第一次启动，另一种是非第一次启动，而非第一次启动又分为leader存活状态和非存活状态。一、第一次启动选举zookeeper特点是，只要节点有半数以上存活就能正常工作，因此其选举机制达到半数就能选出leader。选取机制：1.当第一台节点启动之后，该节点首先投自己一个选票，然后把总票数与节点数（5）的一半（2.5）作对比，此

2022-05-25 16:10:57 1510 2

原创 HDFS知识点梳理

一、定义hdfs是hadoop生态中用来存取海量大数据的分布式的文件存储系统,通过目录树来定位文件.二、适用场景适合一次写入，多次读出的场景，不支持修改，但是支持append操作。适合大数据分析工作，但是步骤繁琐，不适合用来当网盘使用，且不适用于小文件过多的场景☆三、优缺点优点：1.高容错，2.适合大数据，3.可构建于廉价机器缺点：1.不适用于低延迟的场景（毫秒级），2.无法高效的对小文件进行操作，3.只支持写入，不支持修改，但是支持追加。四、hdfs中client的作用1.

2022-05-22 17:56:42 1448

原创 hiveSQL:统计视频观看数Top50所关联视频的所属类别Rank

hive企业实战例题

2022-03-26 14:23:02 2667

原创数据库中DML,DDL,DCL,DQL指的是什么意思

1).DML（data manipulation language）： DML用来对数据库里的数据进行操作的语言,;例如SELECT、UPDATE、INSERT、DELETE2).DDL（data definition language）：DDL主要是用在定义或改变表（TABLE）的结构，数据类型，表之间的链接和约束等初始化工作上，他们大多在建立表时使用,主要的命令有CREATE、ALTER、DROP、TRUNCATE等3).DCL（Data Control Langua...

2022-02-22 23:06:17 19933 7

原创 HBase架构原理(看之前请先了解HBase数据模型)

HBase整个架构与大数据学习生态圈一样以hadoop的HDFS文件系统为基底,通过zookeeper集群的协调建立.而集群又有自己的HMaster和HRegionServer.通过三个框架协调架构运行.1.hadoop Datanode存储region server所管理的真实的数据,如果是虚拟机集群,则真实存在集群磁盘里面.所有的hbase数据都存在hdfs中.而hadoop的NameNode维护了物理数据块的metadata2.zookeeper集群作为分布式协调框架,zookee..

2022-02-22 22:53:15 2581

原创 shell脚本运行没反应

当我们自己编写linux脚本shell文件时间,代码写的没有问题,但是怎么运行都没,那么我们只需要在shell代码的运行代码最前面更新一下主机的环境变量 source /etc

2022-02-17 21:05:27 5405 12

weixin_45937224的博客