自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 mysql建表语句转为hive建表语句,mysql ddl转为hive ddl

mysql建表语句转为hive建表语句,mysql ddl转为hive ddl

2023-08-04 18:51:03 446 1

原创 hive怎么通过explain查看数据倾斜,主要看哪些信息?

在 Hive 中,可以通过 EXPLAIN 命令查看查询语句的执行计划。如果查询语句中存在数据倾斜的情况,可以通过查看执行计划中的某些信息来判断数据倾斜的情况

2023-03-11 17:51:27 747

原创 HiveSQL的执行流程

HiveSQL的执行流程

2023-03-11 14:21:42 1339

原创 hive sql练习题(想起来就随便找几道HQL练习练习,持续更新)

hive sql练习题(想起来就随便找几道HQL练习练习,持续更新)

2023-03-10 18:46:33 449

原创 Failed to execute goal org.scala-tools:maven-scala-plugin:2.15.2:compile (default)

Failed to execute goal org.scala-tools:maven-scala-plugin:2.15.2:compile (default) on project graduation: wrap: org.apache.commons.exec.ExecuteException: Process exited with an error: 1(Exit value: 1)

2023-01-16 00:14:08 768

原创 解决idea本地使用sparkSQL操作hdfs文件load命令不生效的情况,并对hive表库进行操作

解决idea本地使用sparkSQL操作hdfs文件load命令不生效的情况,并对hive表库进行操作

2023-01-12 14:37:29 490

原创 spring boot java项目整合Scala&Spark,接口api调用方式调用scala代码,配置分享

spring boot整合scala和spark

2023-01-10 19:38:04 2259

原创 SpringBoot整合hdfs,实现文件上传下载删除与批量删除,以及vue前端发送请求,实现前后端交互功能;

spring boot整合hdfs

2023-01-07 23:18:05 2077 1

原创 解决vue create 创建项目只有两个文件

本人学习node和vue准备做大数据毕业设计,中途下载vue后使用vue create aaa 命令创建一个项目时,发现只有两个文件,我花了很多时间去查资料找博文,最终发现是和的我windows下的hadoop安装包冲突了,导致yarn命令发现异常。2.修改C:\Users\你的电脑用户名 下的.vuerc文件,把"packageManager": "yarn"这一行数据里面的yarn替换成npm,由此解决。1.删除hadoop的安装路径,删除hadoop的所有环境变量信息。

2022-12-30 23:42:21 941 3

原创 hive开窗函数,排名函数的坑

今天碰到一个小bug,虽然说不是非常严重,但是也花了一点时间来排查。当我们用hive的rank()或者row_number()函数的时候,一般会根据里面的某个唯一列(例如user_id)进行分区,然后order by他的某个时间字段(例如update_time),比如我们需要求某个用户每天登陆的最后登录时间,登录表里面用户可能有多条登录信息,那么我们可能要把数据清洗去重,得到登录时间最晚的那一条记录,此时可以用到开窗函数,整体的写法为:row_number() over(partition by user_

2022-11-11 22:07:33 801

原创 HBase的数据写入流程(详细)

HBase的数据写入流程

2022-06-15 22:20:24 1761

原创 java中final、finally、finalize的区别?

1.final是修饰符关键字,用来修饰类,属性和方法修饰类的时候表示这个类不能被继承;修饰属性的时候表示这个属性不能被修改,且必须要有初始值,被引用时也不能被修改,即常量;修饰方法时表示该方法不能被重写。2.finally是try..catch方法中最终需要执行的代码块标识,这就意味着程序无论正常执行还是发生异常,这里的代码只要JVM不关闭都能执行,可以将释放外部资源的代码写在finally块中3.finalize,Object超类中的方法,垃圾回收器中在销毁对象时调用的一个方法,通过重写fin

2022-05-25 19:52:04 518

原创 zookeeper的选举机制(五台节点)

☆:节点一到节点五的myid分别是1,2,3,4,5zookeeper对leader的选举往往分为两个方面,细分的话可以分为三个方面第一个是zookeeper集群第一次启动,另一种是非第一次启动,而非第一次启动又分为leader存活状态和非存活状态。一、第一次启动选举zookeeper特点是,只要节点有半数以上存活就能正常工作,因此其选举机制达到半数就能选出leader。选取机制:1.当第一台节点启动之后,该节点首先投自己一个选票,然后把总票数与节点数(5)的一半(2.5)作对比,此

2022-05-25 16:10:57 1327 2

原创 HDFS知识点梳理

一、定义hdfs是hadoop生态中用来存取海量大数据的分布式的文件存储系统,通过目录树来定位文件.二、适用场景适合一次写入,多次读出的场景,不支持修改,但是支持append操作。适合大数据分析工作,但是步骤繁琐,不适合用来当网盘使用,且不适用于小文件过多的场景☆三、优缺点优点:1.高容错,2.适合大数据,3.可构建于廉价机器缺点:1.不适用于低延迟的场景(毫秒级),2.无法高效的对小文件进行操作,3.只支持写入,不支持修改,但是支持追加。四、hdfs中client的作用1.

2022-05-22 17:56:42 1248

原创 hiveSQL:统计视频观看数Top50所关联视频的所属类别Rank

hive企业实战例题

2022-03-26 14:23:02 2409

原创 数据库中DML,DDL,DCL,DQL指的是什么意思

1).DML(data manipulation language): DML用来对数据库里的数据进行操作的语言,;例如SELECT、UPDATE、INSERT、DELETE2).DDL(data definition language):DDL主要是用在定义或改变表(TABLE)的结构,数据类型,表之间的链接和约束等初始化工作上,他们大多在建立表时使用,主要的命令有CREATE、ALTER、DROP、TRUNCATE等3).DCL(Data Control Langua...

2022-02-22 23:06:17 19366 7

原创 HBase架构原理(看之前请先了解HBase数据模型)

HBase整个架构与大数据学习生态圈一样以hadoop的HDFS文件系统为基底,通过zookeeper集群的协调建立.而集群又有自己的HMaster和HRegionServer.通过三个框架协调架构运行.1.hadoop Datanode存储region server所管理的真实的数据,如果是虚拟机集群,则真实存在集群磁盘里面.所有的hbase数据都存在hdfs中.而hadoop的NameNode维护了物理数据块的metadata2.zookeeper集群作为分布式协调框架,zookee..

2022-02-22 22:53:15 2427

原创 shell脚本运行没反应

当我们自己编写linux脚本shell文件时间,代码写的没有问题,但是怎么运行都没,那么我们只需要在shell代码的运行代码最前面更新一下主机的环境变量 source /etc

2022-02-17 21:05:27 4960 12

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除