乔厉嗨-CSDN博客

原创问题记录：在hdfs上发现hive表数据的块大小变成了256M

直接上问题，发现有的表的块大小是256M，有的是128M，但是hdfs上并没有设置这个，就使用的默认的128M，那为啥变成了256M呢？+----------------------------------------------------+| createtab_stmt |+----------------------------------------------------+| CREATE TABLE `qzw_m

2021-09-17 14:26:44 891

原创服务器进行修改主机名方式

服务器进行修改主机名方式1、切换到root用户然后输入密码即可2、vim /etc/hostname将想要修改的名称写在里面3、vim /etc/hosts将ip对应的原名修改成新名4、reboot 重启这时即可看见名称已经修改完毕...

2021-09-14 14:12:09 1507

原创 java实现map中存储key相同、value不同，但是想要保留所有数据的情况

本篇博客实现的是map中，key相同、value不同，但是又想保留所有的记录的情况，比如map.put("a",1);map.put("a",2);// 我们的理想状态： map 中的数据为 {"a":1,"a":2}但事实上，如果我们用hashmap的话，它只保留了最后一个value：{“a”:1}话不多说，直接上代码 public static void main(String[] args) { HashMap<String, Object> map = ne

2021-03-14 15:49:22 5076 1

原创 java实现多层嵌套的json数据写入

实现嵌套的json的数据写入比如你想要的数据格式是这样的这里利用map的方式代码实现： public static void main(String[] args) { HashMap<String,Object> map = new HashMap<>(); HashMap<String,Object> map2 = new HashMap<>(); HashMap<String,Obj

2021-03-10 19:15:39 2709

原创编写hive的udf函数实现：canal的message格式数据转为json格式

如果不了解message格式的数据，可以看我的博客：https://blog.csdn.net/weixin_46034893/article/details/1146406291、导入依赖如果你使用的是阿里云产品，在导入udf包的时候导入这个 <dependency> <groupId>com.aliyun.odps</groupId> <artifactId>odps-sdk-udf&lt

2021-03-10 18:09:11 719

原创 spark：解析canal message格式数据

1、canal message的数据格式：1.Header version [协议的版本号,default = 1] logfileName [binlog文件名] logfileOffset [binlog position] serverId [服务端serverId] serverenCode [变更数据的编码] executeTime [变更数据的执行时间] sourceType [变更数据的来源,default =

2021-03-10 17:47:19 1579 4

原创 scala创建二维数组并赋值

scala 创建二维数组的方法跟 java 有一些区别，研究了好一会，终于写出来了1、val arr = ArrayArray[Int]这个就是创建了一个 2 * 2 的数组，相当于java中的 int[][] arr = new int[][]{{1,2,3},{4,2,1}};这种创建二维数组的方法可以直接赋值2、val arr2 = Array.ofDimInt这个是创建了一个 2 * 3 的二维数组，但是应该是没有办法在创建的时候进行赋值，可后续用for循环来进行赋值...

2021-02-26 09:12:55 2718 1

原创 spark常见问题：使用sparkSession算子时，报错：(?: Encoder[Row] )解决方案

目录解决方法一：解决方法二：先转为rdd然后再进行一系列操作我们在使用sparkSession算子的时候，经常会遇到这个问题，报这个错：(?: Encoder[Row] )事实上，我们的代码并没有问题，这个是因为一个序列化反序列化的事情，可以在代码的上边加一个解决方法一：val encode = RowEncoder(targetSchema)其中，targetSchema为表的schema然后将代码反序列化，也就是在代码的最后边加一个(encode) 就好啦之后长这个样子:解决方法

2021-02-03 21:05:47 1411

原创 hive调优

目录1、数据的压缩和存储格式：orc/parquet + snappy2、合理利用分区、分桶3、hive参数优化4、sql优化5、数据倾斜6、合并小文件1、数据的压缩和存储格式：orc/parquet + snappytext格式parquet格式orc格式不压缩120G50G20Gsnappy压缩30G20G10G2、合理利用分区、分桶1）分区：将表的数据在物理上分成不同的文件夹，可以精确指定所要读取得分区2）分桶：将表数据按指定的列hash散列后分

2021-01-27 21:07:35 165

原创 git命令整理

目录1、分支2、添加/删除文件3、提交代码到暂缓区4、拉取5、回滚代码版本6、其他1、分支git branch：查看当前属于哪个分支git branch 分支名：创建分支git checkout 分支名：切换分支git checkout -b 分支名：创建并切换分支git remote：列出已经存在的远程分支git remote -v：列出详细信息，在每一个名字后面列出其远程urlgit remote add 名称 url：添加一个新的远程仓库2、添加/删除文件git add file1

2021-01-20 20:21:24 167

原创 git首次拉取/提交代码步骤（附图）

首先进入到个人主页，复制git地址1、克隆一份子仓库的代码2、查看是否克隆成功3、进入到此项目中4、查看里边的文件（此时应该只有创建项目的时候添加的readme文件）提交代码5、列出已经存在的远程分支及详细地址，在名字后边列出其远程url6、查看当前分支7、创建并切换分支– 然后进入到项目中写一段代码8、查看文件状态：是否提交（绿色为已提交，红色为未提交）– 可以将不需要提交的代码放入.gitignore文件中9、将没有提交的代码放入暂缓区10、再次查看文件状态11、

2021-01-20 20:04:48 7904

原创 HDFS上传文件的过程

客户端向NameNode节点发送上传文件请求namenode 校验权限，检查datanode的存储情况，然后相应 OKclient请求上传第一块数据namenode返回3台（根据情况）可用的datanode主机：lx01、lx02、lx03client请求lx01 建立连接通道，并由lx01向lx02和lx03建立连接通道由lx02和lx03向lx01返回ok，l...

2020-02-27 21:36:11 496

原创踏遍青山人未老，风景这边独好!

@虚拟机开机时出现:Operation inconsistent with current state 错误这里解决的步骤为:1.打开这台虚拟机所在的目录打开后如图:2.删除上图中的文件夹删除后如下:再去开机试试!...

2020-01-16 14:51:18 399

weixin_46034893的博客