hadoop
文章平均质量分 62
梦里Coding
bigData
展开
-
hive数据倾斜场景以及方案
链接:https://blog.csdn.net/cys975900334/article/details/116802465。原创 2023-05-03 17:04:10 · 81 阅读 · 0 评论 -
DataNode知识点的总结归纳
DataNodeDataNode工作机制数据完整性掉线时限参数设置小文件存档DataNode工作机制1)一个数据块在DataNode上以文件的形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据的长度,块数据的校验和,以及时间戳。2)DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。3)心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删除某个数据块。如果超过10分钟没有原创 2021-11-10 19:11:02 · 771 阅读 · 0 评论 -
NameNode的故障处理
NameNode故障后,可以采用如下两种方法恢复数据。方法一:将SecondaryNameNode中数据拷贝到NameNode存储数据的目录;kill -9 NameNode进程删除NameNode存储的数据(/opt/module/hadoop-2.7.2/data/tmp/dfs/name)[atguigu@hadoop102 hadoop-2.7.2]$ rm -rf /opt/module/hadoop-2.7.2/data/tmp/dfs/name/*拷贝SecondaryNam原创 2021-11-10 16:54:07 · 151 阅读 · 0 评论 -
MapReduce核心原理
MapReduceMapReduce优缺点MapReduce优点MapReduce缺点MapReduce核心思想(重点)MapReduce优缺点MapReduce优点1 MapReduce易于编程它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的 PC机器上运行。也就是说你写一个分布式程序,跟写一个简单的串行程序是一模一样的。就是因为这个特点使得 MapReduce编程变得非常流行。2 良好的扩展性当你的计算资源不能得到满足的时候,你可以通过简单的增加机器 来扩展原创 2021-11-05 16:12:18 · 198 阅读 · 0 评论 -
HDFS的优缺点/体系及其运行原理
HDFSHDFS优缺点HDFS体系HDFS运行原理HDFS优缺点HDFS(Hadoop Distributed File System):它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS 的使用场景:适合一次写入,多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。HDFS优点:1)高容错性:数据自动存为多个副本,它通过增加副本的形式,提高容错性,某一个副本丢失以后,可以自动恢复。2)适合处理原创 2021-11-05 14:06:52 · 1150 阅读 · 0 评论 -
Hadoop之Yarn的工作机制
YARN主要由 ResourceManager、 NodeManager、 ApplicationMaster和 Container等组件构成。YARN工作机制(1)MR 程序提交到客户端所在的节点。(2)YarnRunner 向ResourceManager 申请一个Application。(3)RM 将该应用程序的资源路径返回给YarnRunner。(4)该程序将运行所需资源提交到HDFS 上。(5)程序资源提交完毕后,申请运行mrAppMaster。(6)RM 将用户的请求初始化成一个T原创 2021-11-04 19:35:46 · 926 阅读 · 0 评论 -
NameNode/SecondaryNameNode和DataNode的工作机制
NN和2NN的工作机制DataNode工作机制思考:NameNode中的元数据是存储在哪里的?首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新FsImage,就会导致效率过低,但如果不更新,就会发生一致性问题,一旦NameNode节点断原创 2021-11-04 19:27:44 · 156 阅读 · 0 评论 -
Hadoop之HDFS的读写流程(面试题)
HDFSHDFS的写流程HDFS的写流程1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。2)NameNode返回是否可以上传。3)客户端请求第一个 Block上传到哪几个DataNode服务器上。4)NameNode返回3个DataNode节点,分别为dn1、dn2、dn3。5)客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求会继续调用dn2,然后dn2调用d原创 2021-11-04 19:05:07 · 249 阅读 · 0 评论 -
Hive-压缩和存储以及格式(重点!复习总结看这一篇就够了)
MR支持的压缩编码压缩格式算法文件扩展名是否可切分DEFLATEDEFLATE.deflate否GzipDEFLATE.gz否bzip2bzip2.ba2是LZOLZO.lzo是SnappySnappy.snappu否重点是lzo和snappy,这俩之间的最主要区别是否可切片。在生产环境中用的更多是Snappy...原创 2021-10-19 21:05:49 · 1043 阅读 · 0 评论 -
HIVE-函数的使用(nvl/case when then else end/concat/concat_ws/explode)
系统内置函数1)查看系统自带的函数desc functions;2)显示自带的函数的用法:显示的是nvl函数的意思desc function nvl;3)详细显示自带的函数的用法显示的是nvl函数的意思,同时举出例子desc function extended nvl;常用内置函数空字段赋值1)函数说明NVL:给值为 NULL 的数据赋值,它的格式是 NVL( value,default_value)。它的功能是如果 value 为 NULL,则 NVL 函数返回 default原创 2021-10-16 20:30:15 · 840 阅读 · 0 评论 -
关于hadoop 的shuffle 过程详解及其调优(面试题常考)
MapReduce的shuffle流程Shuffle 机制Shuffle 机制1)Map 方法之后Reduce 方法之前这段处理过程叫Shuffle2)Map 方法之后,数据首先进入到分区方法,把数据标记好分区,然后把数据发送到环形缓冲区;环形缓冲区默认大小100m,环形缓冲区达到80%时,进行溢写;溢写前对数据进行排序,排序按照对key 的索引进行字典顺序排序,排序的手段快排;溢写产生大量溢写文件,需要对溢写文件进行归并排序;对溢写的文件也可以进行Combiner 操作,前提是汇总操作,求平均值原创 2021-10-15 17:05:59 · 1780 阅读 · 1 评论 -
电商离线数仓项目-Flume中的ETL拦截器/日志类型区分拦截器
本项目中自定义了两个拦截器,分别是:ETL拦截器、日志类型区分拦截器。ETL拦截器主要用于,过滤时间戳不合法和json数据不完整的日志日志类型区分拦截器主要用于,将错误日志、启动日志和事件日志区分开来,方便发往kafka的不同topic。1)创建maven工程flume-interceptor2)创建包名:com.atguigu.flume.interceptor3)在pom.xml文件中添加如下配置<dependencies> <dependency>原创 2021-09-29 14:40:13 · 1131 阅读 · 1 评论 -
电商离线数仓项目-埋点数据/事件日志的基本格式详细理解
数据格式详解埋点数据事件数据商品点击商品详情页商品列表页广告消息通知用户前台活跃用户后台活跃评论收藏点赞错误日志数据启动日志数据埋点数据数据埋点产生的Json格式的数据的基本格式如下:公共字段:基本所有安卓手机都包含的字段业务字段:埋点上报的字段,有具体的业务类型下面就是一个示例,表示业务字段的上传:{"ap":"xxxxx",//产品字段 app key"cm": { //公共字段 "mid": "", // (String) 设备唯一标识 "uid": "",原创 2021-09-28 11:29:10 · 1275 阅读 · 0 评论 -
Hadoop序列化入门与案例实操
什么是Hadoop的序列化?序列化就是把内存中的对象,转化成字节序列(或从其他数据传输协议)以便于存储到磁盘(持久化)和网络传输的过程.为什么要进行Hadoop的序列化?一般来说,对象只能生存在内存中当中,关机或者断电就没有了.而且对象只能由本地的进程使用,不能被发送到网络的另外一台主机内存当中.所以为了实现从一台主机中的对象传到另外一台机子当中,序列化可以做到.为什么不用JAVA自带的序列化框架?JAVA的序列化过程会附带很多的额外信息,是一个重量级的框架,传输效率很慢,而Hadoop在序列化的原创 2021-08-06 13:05:47 · 162 阅读 · 0 评论 -
大数据高频面试题-DataNode工作机制
DataNode工作机制:1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。2)DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。3)心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳,则认为该节点不可用。4)集群运行中可以安全原创 2021-08-04 13:03:06 · 138 阅读 · 0 评论