自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 问题记录:在hdfs上发现hive表数据的块大小变成了256M

直接上问题,发现有的表的块大小是256M,有的是128M,但是hdfs上并没有设置这个,就使用的默认的128M,那为啥变成了256M呢?+----------------------------------------------------+| createtab_stmt |+----------------------------------------------------+| CREATE TABLE `qzw_m

2021-09-17 14:26:44 647

原创 服务器进行修改主机名方式

服务器进行修改主机名方式1、切换到root用户 然后输入密码即可2、vim /etc/hostname将想要修改的名称写在里面3、vim /etc/hosts将ip对应的原名修改成新名4、reboot 重启这时即可看见名称已经修改完毕...

2021-09-14 14:12:09 1308

原创 java实现map中存储key相同、value不同,但是想要保留所有数据的情况

本篇博客实现的是map中,key相同、value不同,但是又想保留所有的记录的情况,比如map.put("a",1);map.put("a",2);// 我们的理想状态: map 中的数据为 {"a":1,"a":2}但事实上,如果我们用hashmap的话,它只保留了最后一个value:{“a”:1}话不多说,直接上代码 public static void main(String[] args) { HashMap<String, Object> map = ne

2021-03-14 15:49:22 4531 1

原创 java实现多层嵌套的json数据写入

实现嵌套的json的数据写入比如你想要的数据格式是这样的这里利用map的方式代码实现: public static void main(String[] args) { HashMap<String,Object> map = new HashMap<>(); HashMap<String,Object> map2 = new HashMap<>(); HashMap<String,Obj

2021-03-10 19:15:39 2411

原创 编写hive的udf函数实现:canal的message格式数据转为json格式

如果不了解message格式的数据,可以看我的博客:https://blog.csdn.net/weixin_46034893/article/details/1146406291、导入依赖如果你使用的是阿里云产品,在导入udf包的时候导入这个 <dependency> <groupId>com.aliyun.odps</groupId> <artifactId>odps-sdk-udf&lt

2021-03-10 18:09:11 528

原创 spark:解析canal message格式数据

1、canal message的数据格式:1.Header version [协议的版本号,default = 1] logfileName [binlog文件名] logfileOffset [binlog position] serverId [服务端serverId] serverenCode [变更数据的编码] executeTime [变更数据的执行时间] sourceType [变更数据的来源,default =

2021-03-10 17:47:19 1231 4

原创 scala创建二维数组并赋值

scala 创建二维数组的方法跟 java 有一些区别,研究了好一会,终于写出来了1、val arr = ArrayArray[Int]这个就是创建了一个 2 * 2 的数组,相当于java中的 int[][] arr = new int[][]{{1,2,3},{4,2,1}};这种创建二维数组的方法可以直接赋值2、val arr2 = Array.ofDimInt这个是创建了一个 2 * 3 的二维数组,但是应该是没有办法在创建的时候进行赋值,可后续用for循环来进行赋值...

2021-02-26 09:12:55 2385 1

原创 spark常见问题:使用sparkSession算子时,报错:(?: Encoder[Row] )解决方案

目录解决方法一:解决方法二:先转为rdd然后再进行一系列操作我们在使用sparkSession算子的时候,经常会遇到这个问题,报这个错:(?: Encoder[Row] )事实上,我们的代码并没有问题,这个是因为一个序列化反序列化的事情,可以在代码的上边加一个解决方法一:val encode = RowEncoder(targetSchema)其中,targetSchema为表的schema然后将代码反序列化,也就是在代码的最后边加一个(encode) 就好啦之后长这个样子:解决方法

2021-02-03 21:05:47 1104

原创 hive调优

目录1、数据的压缩和存储格式:orc/parquet + snappy2、合理利用分区、分桶3、hive参数优化4、sql优化5、数据倾斜6、合并小文件1、数据的压缩和存储格式:orc/parquet + snappytext格式parquet格式orc格式不压缩120G50G20Gsnappy压缩30G20G10G2、合理利用分区、分桶1)分区:将表的数据在物理上分成不同的文件夹,可以精确指定所要读取得分区2)分桶:将表数据按指定的列hash散列后分

2021-01-27 21:07:35 76

原创 git命令整理

目录1、分支2、添加/删除文件3、提交代码到暂缓区4、拉取5、回滚代码版本6、其他1、分支git branch:查看当前属于哪个分支git branch 分支名:创建分支git checkout 分支名:切换分支git checkout -b 分支名:创建并切换分支git remote:列出已经存在的远程分支git remote -v:列出详细信息,在每一个名字后面列出其远程urlgit remote add 名称 url:添加一个新的远程仓库2、添加/删除文件git add file1

2021-01-20 20:21:24 82

原创 git首次拉取/提交代码步骤(附图)

首先进入到个人主页,复制git地址1、克隆一份子仓库的代码2、查看是否克隆成功3、进入到此项目中4、查看里边的文件(此时应该只有创建项目的时候添加的readme文件)提交代码5、列出已经存在的远程分支及详细地址,在名字后边列出其远程url6、查看当前分支7、创建并切换分支– 然后进入到项目中写一段代码8、查看文件状态:是否提交(绿色为已提交,红色为未提交)– 可以将不需要提交的代码放入.gitignore文件中9、将没有提交的代码放入暂缓区10、再次查看文件状态11、

2021-01-20 20:04:48 7149

原创 HDFS上传文件的过程

客户端向NameNode节点发送上传文件请求namenode 校验权限,检查datanode的存储情况,然后相应 OKclient请求上传第一块数据namenode返回3台(根据情况)可用的datanode主机:lx01、lx02、lx03client请求lx01 建立连接通道,并由lx01向lx02和lx03建立连接通道由lx02和lx03向lx01返回ok,l...

2020-02-27 21:36:11 407

原创 踏遍青山人未老,风景这边独好!

@虚拟机开机时出现:Operation inconsistent with current state 错误这里解决的步骤为:1.打开这台虚拟机所在的目录打开后如图:2.删除上图中的文件夹删除后如下:再去开机试试!...

2020-01-16 14:51:18 325

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除