![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
sj天问
这个作者很懒,什么都没留下…
展开
-
hadoop生态圈知识总结
Linux&Shell相关总结Linux常用命令序号命令命令解释1top查看内存2df -h查看磁盘存储情况3iotop查看磁盘IO读写(yum install iotop安装)4iotop -o直接查看比较高的磁盘读写程序5netstat -tunlp | grep 端口号查看端口占用情况6uptime查看报告系统运行时长及平均负载7ps -aux查看进程Shell常用工具1)awk、sed、cut、原创 2020-11-26 15:06:49 · 739 阅读 · 0 评论 -
Flume内部原理与拓扑结构
Flume事务Flume Agent内部原理重要组件:1)ChannelSelectorChannelSelector的作用就是选出Event将要被发往哪个Channel。其共有两种类型,分别是Replicating(复制)和Multiplexing(多路复用)。ReplicatingSelector会将同一个Event发往所有的Channel,Multiplexing会根据相应的原则,将不同的Event发往不同的Channel。2)SinkProcessorSinkProcessor共有原创 2020-11-03 18:30:51 · 108 阅读 · 0 评论 -
hive调优
执行计划(Explain)1)基本语法EXPLAIN [EXTENDED | DEPENDENCY | AUTHORIZATION] query2)案例实操(1)查看下面这条语句的执行计划没有生成MR任务的hive (default)> explain select * from emp;ExplainSTAGE DEPENDENCIES: Stage-0 is a root stageSTAGE PLANS: Stage: Stage-0 Fetch Operat原创 2020-10-30 18:06:06 · 2285 阅读 · 0 评论 -
hive压缩
Hadoop压缩配置MR支持的压缩编码为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器,如下表所示:压缩性能的比较:On a single core of a Core i7 processor in 64-bit mode, Snappy compresses at about 250 MB/sec or more and decompresses at about 500 MB/sec or more.压缩参数配置要在Hadoop中启用压缩,可以配置如下参数(mapred-原创 2020-10-30 16:50:30 · 115 阅读 · 0 评论 -
hive函数
系统内置函数1)查看系统自带的函数hive> show functions;2)显示自带的函数的用法hive> desc function upper;3)详细显示自带的函数的用法hive> desc function extended upper;常用内置函数8.2.1 空字段赋值1)函数说明NVL:给值为NULL的数据赋值,它的格式是NVL( value,default_value)。它的功能是如果value为NULL,则NVL函数返回default_valu原创 2020-10-28 21:22:20 · 771 阅读 · 0 评论 -
hive命令(hql)
基本查询全表和特定列查询0)数据准备(0)原始数据dept:10 ACCOUNTING 170020 RESEARCH 180030 SALES 190040 OPERATIONS 1700emp:7369 SMITH CLERK 7902 1980-12-17 800.00 207499 ALLEN SALESMAN 7698 1981-2-20 1600.00 300.00 307521 WARD SALESMAN 7698 1981-2-22 1250.00 500.00原创 2020-10-27 18:54:24 · 953 阅读 · 0 评论 -
hive
什么是hivehive简介Hive:由Facebook开源用于解决海量结构化日志的数据统计工具。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。Hive本质:将HQL转化成MapReduce程序(1)Hive处理的数据存储在HDFS(2)Hive分析数据底层的实现是MapReduce(3)执行程序运行在Yarn上1.2Hive的优缺点优点(1)操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)。(2)避免了去写Ma原创 2020-10-26 21:10:08 · 219 阅读 · 0 评论 -
Hadoop优化
MapReduce 跑的慢的原因MapReduce程序效率的瓶颈在于两点:计算机性能CPU,内存,磁盘健康,网络I/O操作优化(1)数据倾斜(2)Map和Reduce数设置不合理(3)Map运行时间太长,导致Reduce等待过久(4)小文件过多(5)大量的不可分块的超大文件(6)Spill次数过多(7)Merge次数过多MapReduce优化方法MapReduce优化方法主要从六个方面考虑:数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题和常用的调优参数。数据输原创 2020-10-21 19:00:41 · 75 阅读 · 0 评论 -
Hadoop数据压缩
概述MR支持的压缩编码压缩方式选择Gzip压缩Bzip2压缩Lzo压缩Snappy压缩压缩位置选择压缩可以在MapReduce作用的任意阶段启用压缩参数配置参数默认值阶段建议io.compression.codecs(在core-site.xml中配置)Hadoop使用文件扩展名判断是否支持某种编解码器mapreduce.map.output.compress(在mapred-site.xml中配置)falsemapper输出原创 2020-10-21 18:23:21 · 107 阅读 · 0 评论 -
Yarn资源调度器
Yarn架构YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成Yarn工作机制MR程序提交到客户端所在的节点。YarnRunner向ResourceManager申请一个Application。RM将该应用程序的资源路径返回给YarnRunner。该程序将运行所需资源提交到HDFS上。程序资源提交完毕后,申请运行mrAppMaster。RM将用户的请求初始化成一个Task。其中一个NodeManage原创 2020-10-20 19:25:35 · 160 阅读 · 0 评论 -
MapTask工作机制与Reduce工作机制
MapTask工作机制Read阶段:MapTask通过用户编写的RecordReader,从输入InputSplit中解析出一个个key/value。Map阶段:该节点主要是将解析出的key/value交给用户编写map()函数处理,并产生一系列新的key/value。Collect收集阶段:在用户编写map()函数中,当数据处理完成后,一般会调用OutputCollector.collect()输出结果。在该函数内部,它会将生成的key/value分区(调用Partitioner),并写入一个环原创 2020-10-20 18:38:29 · 357 阅读 · 0 评论 -
MapReducejob提交流程源码和切片源码解析
FileInputFormat切片源码解析(input.getSplits(job))程序先找到数据存储的目录开始遍历处理(规划切片)目录下的每一个文件遍历第一个文件ss.txt a) 获取文件大小fs.sizeOf(ss.txt)b)计算切片大小c)默认情况下,切片大小=blocksized)开始切,形成第一个切片,0-128M第一个切片128-256M第二个切片(每次切片时,都要判断切完剩下的部分是否大于块的1.1倍,不大于1.1倍就只划分一块切片)e)将切片信息写到一个切片规划文.原创 2020-10-20 18:20:37 · 106 阅读 · 0 评论 -
MapReduce概述以及序列化
MapReduce是一个分布式运算程序编程框架。分布式的运算程序往往需要分成至少2个阶段。第一个阶段的MapTask并发实例,完全并行运行,互不相干。第二个阶段的ReduceTask并发实例互不相干,但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段,如果用户的业务逻辑非常复杂,那就只能多个MapReduce程序,串行运行。Java类型Hadoop Writable类型Boolean原创 2020-10-16 20:33:33 · 250 阅读 · 0 评论 -
HDFS数据流以及NameNode,SecondNameNode,DataNode工作机制
HDFS写数据流程如图所示,所要做的动作是吧ss.avi上传首先客户端先创建一个FileSystem对象之后向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。NameNode返回是否可以上传。客户端请求上传第一个Block(0-128M)上传到哪几个DataNode服务器上。NameNode返回dn1,dn2,dn3节点,表示用这三个节点存储数据然后客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求会继续调用dn2,然原创 2020-10-14 19:37:31 · 186 阅读 · 0 评论 -
HDFS梳理以及客户端操作HDFS
HDFS优缺点1.优点高容错性(1)数据自动保存多个副本,通过增加副本的形式,提高容错性。(2)某一个副本丢失以后,它可以自动恢复适合处理大规模数据(1)数据规模:能够处理最高达PB级别的数据;(2)文件规模:能够处理百万规模以上的文件数量,数量相当之大。可构建在廉价机器上2.缺点不适合低延时数据访问,比如毫秒级的存储数据无法高效的对大量小文件进行存储HDFS组成架构NameNode(nn):就是Master,它是一个主管、管理者。(1)管理HDFS的名称空间(2)配原创 2020-10-13 18:59:32 · 302 阅读 · 0 评论