码农在浙江-CSDN博客

原创 shell启动脚本

#!/bin/bashstatus(){pid=ps x | grep test .jar | grep -v grep | awk '{print $1}'if [ ! $pid ]; thenecho “test server is not running[FAILED]”elseecho “test server is running[OK]”fi}start(){nohup /usr/lib/jdk/bin/java -jar /hadoop/ETLAPP/javaWeb/tes

2021-06-21 22:16:23 506

原创 HIVE的权限管理和调优

1、视图hive视图的特点：Ⅰ、不支持物化视图。Ⅱ、只能查询，不能做加载数据操作。Ⅲ、视图的创建，只是保存一份元数据，查询视图时才执行对应的子查询。Ⅳ、视图定义中若包含了ORDER BY/LIMIT语句，当查询视图时也进行ORDER BY/LIMIT操作，view当中定义的优先级更高。Ⅴ、view支持迭代视图。项目2项目3...

2021-03-08 22:18:05 307

原创 hive（1）

一、HIVERSERVER2和HIVESERVER1、HIVERSERVER仅允许单点登录，HIVERSERVER2允许多个客户端登陆。2、HIVERSERVER2启动后会开启10000端口和10002端口，10000用于远程客户端连接，10002可以查看节点的hive连接情况以及历史查询等信息。...

2021-01-31 21:26:14 224 1

原创关于MapReduce(二）

一概述：(1)Hadoop MapReduce采用Master/Slave结构。*Master：是整个集群的唯一的全局管理者，功能包括：作业管理、状态监控和任务调度等，即MapReduce中的JobTracker。*Slave：负责任务的执行和任务状态的回报，即MapReduce中的TaskTracker。二 JobTracker剖析：(1)概述：JobTracker是一个后台服务进程，启动之后，会一直监听并接收来自各个TaskTracker发送的心跳信息，包括资源使用情况和任务运行情况等信息。

2020-11-11 21:55:44 375 1

原创 IDEA开发HDFS案例

// An highlighted blockpublic class HDFSAPP { public static final String HDFS_PATH = "hdfs://hadoop001:8020" ; public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); FileSystem fileSys

2020-11-11 20:36:42 195

原创关于MapReduce(一）

关于MapReuceMapReduce名词关系MapReduceMapTaskMap以一条记录为单位做映射。映射、变换、过滤。1进N出。map的数量由切片（split，一般情况下split默认等于hdfs中的block）的数量决定的。Reduce以一组为单位做计算。（前置条件：分组 key:value k,v是由map来实现的）分解、缩小、归纳。一组进N出。(KEY,VAL):键值对的键划分数据的分组。reduce的并行度数量由设置来决定。（默认数量为1）名词关系bl

2020-11-09 22:20:53 209

原创关于HDFS(三)

一、HDFS非HA的问题单点故障，集群整体不可用。NN压力过大，内存受限。二、HDFS的HA解决方案单点故障高可用方案。多个NN，主备i切换（HDFS是热备）。压力过大，内存受限联帮机制：Federation（元数据分片）。多个NN，管理不同的元数据。HADOOP 2.0只支持HA的一主一备。...

2020-11-09 08:31:00 152

原创关于HDFS（二）

一、HDFS的写流程Client和NN连接创建文件元数据。NN判定元数据是否有效。NN处发副本放置策略，返回一个有序的DN列表。Client和DN建立Pipeline连接。Client将块切分成packet（64KB），并使用chunk（512B）+chucksum（4B）填充。Client将packet放入发送队列dataqueue中，并向第一个DN发送。第一个DN收到packet后本地保存并发送给第二个DN。第二个DN收到packet后本地保存并发送给第三个DN。这一个过程中，上游节

2020-11-06 19:46:08 109

原创关于HDFS（一）

一、HDFS的存储模型1、文件线性按字节分割成块（block），具有offset，id2、文件与文件的block大小可以不一样。3、一个文件除了最后一个block，其他block大小一致。4、block的大小可以一句硬件的I/O进行调整。5、block被分散存放在集群的节点中，具有location。6、Block具有副本(replication),没有主从概念，副本不能出现在同一个节点。7、副本是满足可靠性和性能的关键。8、文件上传可以指定block大小和副本数，上传后只能修改副本数。9、

2020-11-05 23:01:38 245 3

原创分治思想

一、一万个元素存储之后进行搜索1、串行存储并直接遍历搜索，时间复杂度度为O(N)2、将每个元素转成哈希值对2500（具体多少自己确定）取模，X.hashCode%2500,根据结果放入相应的数组内，则查询的时候时间复杂度就会是O(4)二、有一个1T的文件，里面只有两行数据是一样的，需要找到该行数据。1、遍历该文件中的每行数据，然后与文件中所有数据对比，找出重复的数据。2、遍历该文件中的每行数据，将每行数据转成哈希值，然后对2000取模，得到0-1999之间的数，然后将该行数据放入相应的数字的文件下

2020-11-05 22:23:19 118

原创 cdh整合spark2

1、下载下列文件SPARK2_ON_YARN-2.4.0.cloudera2.jar，SPARK2-2.4.0.cloudera2-1.cdh5.13.3.p0.1041012-el7.parcel，SPARK2-2.4.0.cloudera2-1.cdh5.13.3.p0.1041012-el7.parcel.sha1改名为SPARK2-2.4.0.cloudera2-1.cdh5.13.3.p0.1041012-el7.parcel.sha，manifest.json，地址为http://archi

2020-07-05 17:57:20 628

原创 cdh安装kafka

1、下载kafka包裹文件到你的一个节点。http://archive.cloudera.com/kafka/parcels/4.1.0/根据你自己的linux和cdh版本来确定kafka版本，下载KAFKA-4.1.0-1.4.1.0.p0.4-el7.parcel，KAFKA-4.1.0-1.4.1.0.p0.4-el7.parcel.sha1，manifest.json到kafka_parcel目录下2、安装httpd，并启动http，将包裹文件的文件夹移动到httpd的目录下，并将KAFKA-

2020-07-05 17:13:16 886 2

原创 impala精度事故

impala精度问题0在下游使用数据的时候发现一些数据精度有问题，本以为是sql中处理精度有问题，后面发现并没有处理精度，然后再将相关的sql放在hive中执行，发现在hive中执行并没有出现精度问题，但是切换成impala跑的时候却发现精度丢失了，一直只保留到4位精度。后面一步步排查sql，发现是在做除运算的时候，impala会默认保留除数和被除数中最大的精度，所以在做除法运算前先用cast （ ‘’ as Decimal()）函数转换一下数据精度，这样除运算就会根据转换的最大精度来计算。...

2020-07-04 17:50:07 1912 1

原创 Cloudera Manager挂了重启数据初始化

Cloudera Manager挂了重启数据初始化记一次CM挂了事件突然发现CM挂了，第一反应就是重新启动CM Server，但是发现重启之后metadata+hive表数据重新初始化。查找各种资料之后利用mysqldump命令备份的文件终于恢复了数据。后续1、mysql要开启binlog2、mysql开启定期备份（1天）...

2020-07-01 23:10:13 768 1