自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 shell启动脚本

#!/bin/bashstatus(){pid=ps x | grep test .jar | grep -v grep | awk '{print $1}'if [ ! $pid ]; thenecho “test server is not running[FAILED]”elseecho “test server is running[OK]”fi}start(){nohup /usr/lib/jdk/bin/java -jar /hadoop/ETLAPP/javaWeb/tes

2021-06-21 22:16:23 449

原创 HIVE的权限管理和调优

1、视图hive视图的特点:Ⅰ、不支持物化视图。Ⅱ、只能查询,不能做加载数据操作。Ⅲ、视图的创建,只是保存一份元数据,查询视图时才执行对应的子查询。Ⅳ、视图定义中若包含了ORDER BY/LIMIT语句,当查询视图时也进行ORDER BY/LIMIT操作,view当中定义的优先级更高。Ⅴ、view支持迭代视图。项目2项目3...

2021-03-08 22:18:05 245

原创 hive(1)

一 、HIVERSERVER2和HIVESERVER1、HIVERSERVER仅允许单点登录,HIVERSERVER2允许多个客户端登陆。2、HIVERSERVER2启动后会开启10000端口和10002端口,10000用于远程客户端连接,10002可以查看节点的hive连接情况以及历史查询等信息。...

2021-01-31 21:26:14 169 1

原创 关于MapReduce(二)

一 概述:(1)Hadoop MapReduce采用Master/Slave结构。*Master:是整个集群的唯一的全局管理者,功能包括:作业管理、状态监控和任务调度等,即MapReduce中的JobTracker。*Slave:负责任务的执行和任务状态的回报,即MapReduce中的TaskTracker。二 JobTracker剖析:(1)概述:JobTracker是一个后台服务进程,启动之后,会一直监听并接收来自各个TaskTracker发送的心跳信息,包括资源使用情况和任务运行情况等信息。

2020-11-11 21:55:44 296 1

原创 IDEA开发HDFS案例

// An highlighted blockpublic class HDFSAPP { public static final String HDFS_PATH = "hdfs://hadoop001:8020" ; public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); FileSystem fileSys

2020-11-11 20:36:42 150

原创 关于MapReduce(一)

关于MapReuceMapReduce名词关系MapReduceMapTaskMap以一条记录为单位做映射。映射、变换、过滤。1进N出。map的数量由切片(split,一般情况下split默认等于hdfs中的block)的数量决定的。Reduce以一组为单位做计算。(前置条件:分组 key:value k,v是由map来实现的)分解、缩小、归纳。一组进N出。(KEY,VAL):键值对的键划分数据的分组。reduce的并行度数量由设置来决定。(默认数量为1)名词关系bl

2020-11-09 22:20:53 169

原创 关于HDFS(三)

一、HDFS非HA的问题单点故障,集群整体不可用。NN压力过大,内存受限。二、HDFS的HA解决方案单点故障高可用方案。多个NN,主备i切换(HDFS是热备)。压力过大,内存受限联帮机制:Federation(元数据分片)。多个NN,管理不同的元数据。HADOOP 2.0只支持HA的一主一备。...

2020-11-09 08:31:00 95

原创 关于HDFS(二)

一、HDFS的写流程Client和NN连接创建文件元数据。NN判定元数据是否有效。NN处发副本放置策略,返回一个有序的DN列表。Client和DN建立Pipeline连接。Client将块切分成packet(64KB),并使用chunk(512B)+chucksum(4B)填充。Client将packet放入发送队列dataqueue中,并向第一个DN发送。第一个DN收到packet后本地保存并发送给第二个DN。第二个DN收到packet后本地保存并发送给第三个DN。这一个过程中,上游节

2020-11-06 19:46:08 84

原创 关于HDFS(一)

一、HDFS的存储模型1、文件线性按字节分割成块(block),具有offset,id2、文件与文件的block大小可以不一样。3、一个文件除了最后一个block,其他block大小一致。4、block的大小可以一句硬件的I/O进行调整。5、block被分散存放在集群的节点中,具有location。6、Block具有副本(replication),没有主从概念,副本不能出现在同一个节点。7、副本是满足可靠性和性能的关键。8、文件上传可以指定block大小和副本数,上传后只能修改副本数。9、

2020-11-05 23:01:38 196 3

原创 分治思想

一、一万个元素存储之后进行搜索1、串行存储并直接遍历搜索,时间复杂度度为O(N)2、将每个元素转成哈希值对2500(具体多少自己确定)取模,X.hashCode%2500,根据结果放入相应的数组内,则查询的时候时间复杂度就会是O(4)二、有一个1T的文件,里面只有两行数据是一样的,需要找到该行数据。1、遍历该文件中的每行数据,然后与文件中所有数据对比,找出重复的数据。2、遍历该文件中的每行数据,将每行数据转成哈希值,然后对2000取模,得到0-1999之间的数,然后将该行数据放入相应的数字的文件下

2020-11-05 22:23:19 90

原创 cdh整合spark2

1、下载下列文件SPARK2_ON_YARN-2.4.0.cloudera2.jar,SPARK2-2.4.0.cloudera2-1.cdh5.13.3.p0.1041012-el7.parcel,SPARK2-2.4.0.cloudera2-1.cdh5.13.3.p0.1041012-el7.parcel.sha1改名为SPARK2-2.4.0.cloudera2-1.cdh5.13.3.p0.1041012-el7.parcel.sha,manifest.json,地址为http://archi

2020-07-05 17:57:20 556

原创 cdh安装kafka

1、下载kafka包裹文件到你的一个节点。http://archive.cloudera.com/kafka/parcels/4.1.0/根据你自己的linux和cdh版本来确定kafka版本,下载KAFKA-4.1.0-1.4.1.0.p0.4-el7.parcel,KAFKA-4.1.0-1.4.1.0.p0.4-el7.parcel.sha1,manifest.json到kafka_parcel目录下2、安装httpd,并启动http,将包裹文件的文件夹移动到httpd的目录下,并将KAFKA-

2020-07-05 17:13:16 778 2

原创 impala精度事故

impala精度问题0在下游使用数据的时候发现一些数据精度有问题,本以为是sql中处理精度有问题,后面发现并没有处理精度,然后再将相关的sql放在hive中执行,发现在hive中执行并没有出现精度问题,但是切换成impala跑的时候却发现精度丢失了,一直只保留到4位精度。后面一步步排查sql,发现是在做除运算的时候,impala会默认保留除数和被除数中最大的精度,所以在做除法运算前先用cast ( ‘’ as Decimal())函数转换一下数据精度,这样除运算就会根据转换的最大精度来计算。...

2020-07-04 17:50:07 1659 1

原创 Cloudera Manager挂了重启数据初始化

Cloudera Manager挂了重启数据初始化记一次CM挂了事件突然发现CM挂了,第一反应就是重新启动CM Server,但是发现重启之后metadata+hive表数据重新初始化。查找各种资料之后利用mysqldump命令备份的文件终于恢复了数据。后续1、mysql要开启binlog2、mysql开启定期备份(1天)...

2020-07-01 23:10:13 683 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除