![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 83
hbvfhb
这个作者很懒,什么都没留下…
展开
-
HDFS HDFS 功能和特性
文章目录HDFS 功能和特性1.Snapshot快照1.概念2.快照功能开启3.快照功能禁用4.快照命令2.权限管理(认证,授权,审计)1.概念2.HDFS UGO权限管理3.umask权限掩码,文件和目录的默认权限4.权限相关命令5.Sticky bit(粘滞位)6.HDFS用户身份认证simple认证kerberos认证7.HDFS Group Mapping组映射8.HDFS ACL权限管理9.HDFS Proxy user 代理用户3.HDFS 透明加密1.加密层级2.HDFS 透明加密3.加密区原创 2021-01-31 15:09:44 · 1172 阅读 · 0 评论 -
HDFS 租约
文章目录HDFS 租约概念1.租约(Lease)2.LeaseManage3.LeaseRenewer操作1.对象交互2.租约的添加3.租约的检测,释放HDFS 租约在HDFS中,当每次客户端用户往某个文件中写入数据的时候,为了保持数据的一致性,此时其它客户端程序是不允许向此文件同时写入数据的。租约是HDFS给予客户端的一个写文件操作的临时许可证,无此证件者将不被允许操作此文件。概念1.租约(Lease)租约 1----->1 持有者 (客户端) 1----->N原创 2021-01-30 10:26:31 · 634 阅读 · 0 评论 -
HDFS Editlog写机制(双缓冲+分段锁)
HDFS Editlog写机制(双缓冲+分段锁)在HA下,客户端的每一条事务都会首先写入缓冲区,然后马上写入磁盘Editlog和journalNode(当然这个马上是为了保证可靠性)。即HDFS应该尽可能保证客户端写的写操作返回成功时,磁盘和JournalNode中Editlog中有该记录。如何保证上述要求:客户端将记录写入磁盘或网络后才返回成功。客户端将记录写入内存后返回,后台线程将内存记录写入磁盘和网络。在高并发环境下 采用1:多线程对于共享资源(磁盘/网络)的互斥访问,和磁盘/网络原创 2021-01-29 21:43:14 · 843 阅读 · 0 评论 -
HDFS Editslog FsImage Checkpoint
文章目录Hdfs Editslog FsImage SecondaryNN与NN工作机制1.FsImageFsImage文件内容2.EditsEdits文件内容3.NN和Secondary NN工作机制(CheckPoint)Checkpoint processNN和Secondary NN机制Hdfs Editslog FsImage SecondaryNN与NN工作机制【文件(目录)元数据】存储在【NameNode内存】中,使用arrayList。1.FsImage为了防止NN断电,内存元数原创 2021-01-26 21:56:14 · 364 阅读 · 1 评论 -
HDFS 文件读写存机制
文章目录HDFS 文件(读写存)机制1.文件存储副本放置策略(以块为单位放置,而不是文件为单位)2.文件读取机制注意:3.文件写入机制1.Packet,chunk2.写入机制3.注意:4.数据写入期间datanode发生故障参考:《Hadoop 权威指南(第四版)》HDFS 文件(读写存)机制1.文件存储HDFS上最基本的存储文件的基本单位是数据块(Block)。HDFS块默认大小为128M(2.0),64M(1.0)。思考:当文件大小1M,则不会实际占据128M内存,但是块大小还是128M。较多原创 2021-01-26 16:12:50 · 949 阅读 · 0 评论 -
MapReduce mapTask阶段
MapReduce mapTask阶段MapTask机制Read阶段:MapTask通过用户编写的RecordReader,从输入InputSplit中解析出一个个key/value。Map阶段:该节点主要是将解析出的key/value交给用户编写map()函数处理,并产生一系列新的key/value。Collect收集阶段:在用户编写map()函数中,当数据处理完成后,一般会调用OutputCollector.collect()输出结果。在该函数内部,它会将生成的key/value和分区号原创 2020-12-15 19:44:29 · 281 阅读 · 0 评论 -
MapReduce merge机制
MapReduce merge机制概述在map端和reduce端都会有merge过程,将segments进行多路归并成一个大的segment。在map端,一个spill-N.out文件在merge阶段使用一个segment代表。merge过程粗略过程:从segments中每次remove出mergeFactor个segment进行归并,归并为一个大的segment,结束后将该segment插入segments中,继续该过程,直到segments.size<=mergeFactor,对其进行最原创 2020-12-15 10:32:37 · 1334 阅读 · 2 评论 -
mapreduce MapTask,ReduceTask,shuffle机制(含Comparator,Partition)
mapreduce MapTask,ReduceTask,shuffle机制MapTask机制Read阶段:MapTask通过用户编写的RecordReader,从输入InputSplit中解析出一个个key/value。Map阶段:该节点主要是将解析出的key/value交给用户编写map()函数处理,并产生一系列新的key/value。Collect收集阶段:在用户编写map()函数中,当数据处理完成后,一般会调用OutputCollector.collect()输出结果。在该函数内部,它原创 2020-12-13 22:59:14 · 233 阅读 · 0 评论 -
hadoop mapreduce相关类 FileInputFormat
hadoop mapreduce相关类 FileInputFormat官方链接http://hadoop.apache.org/docs/r2.9.1/api/类继承关系abstract InputFormat来自官方api文档中关于InputFormat的描述。InputFormat describes the input-specification for a Map-Reduce job.The Map-Reduce framework relies on the InputForm原创 2020-12-12 21:26:33 · 399 阅读 · 0 评论 -
mapreduce job提交到yarn分析
mapreduce job提交到yarn分析相关类Configuration配置job,如果不配置则使用默认配置。Job封装了一个job运行的信息。Cluster代表本地连接ResourceManager和文件系统的一个对象;内部封装了JobRunner和运行时的文件系统信息;如果是本地模式则JobRunner为localJobRunner,和本地文件系统,集群模式为YarnRunner和hdfs。ClientProtocolProvider用于生成JobRunner;如果是本地模式则Cl原创 2020-12-08 20:04:07 · 493 阅读 · 0 评论 -
MapReduce环形缓冲区MapOutputBuffer,kvBuffer分析
MapReduce环形缓冲区MapOutputBuffer,kvBuffer分析环形缓冲区相关类和属性说明MapTask$MapOutputBuffer默认的环形缓冲区类,可以通过job配置文件的参数mapreduce.job.map.output.collector.class进行设置。sorter默认的排序类,可以通过job配置文件参数map.sort.class进行设置,此类必须是IndexedSorter类的子类。combinerRunnercombiner操作类,可以通过job配置文原创 2020-12-04 10:28:02 · 1276 阅读 · 0 评论