Hadoop
本栏有关Hadoop学习
<一蓑烟雨任平生>
没成功之前才华等于狗屎,只有成功了才证明你的一切!
展开
-
Hadoop思维导图总结!
一张图搞定Hadoop面试点以上内容仅供参考学习,如有侵权请联系我删除!如果这篇文章对您有帮助,左下角的大拇指就是对博主最大的鼓励。您的鼓励就是博主最大的动力!原创 2021-04-26 22:01:56 · 975 阅读 · 1 评论 -
HDFS高级特性之Federation
目录一、Federation架构介绍二、Federation配置一、Federation架构介绍1.Federation架构中会有多个namenode2.与HDFS HA的区别:HDFS HA解决的是namenode单点故障的问题。虽然是多个namenode,但管理的是同一个文件系统, 对应存储的内容也是一样的。Federation中,每个namenode管理的是属于自己的一部分数据,存储的内容完全不一样。3.Federation架构图二、Federation配置配置hdfs-sit原创 2020-10-18 18:49:52 · 337 阅读 · 1 评论 -
MapReduce之join案例详解!
目录一、需求分析二、Map join实现三、Reduce join实现一、需求分析MapReduce提供了表连接操作其中包括Map端join、Reduce端join还有半连接,现在我们要讨论的是Map端join,Map端join是指数据到达map处理函数之前进行合并的,效率要远远高于Reduce端join,因为Reduce端join是把所有的数据都经过Shuffle,非常消耗资源。案例分析:一个电商网站后台数据存在两个表(可以看为两个文件):用户表信息:用户ID、用户名、电话订单表信息:订单ID原创 2020-10-17 22:59:58 · 914 阅读 · 2 评论 -
MapReduce之二次排序案例详解!
目录一、需求分析二、方案一实现三、方案二实现一、需求分析MR的二次排序的需求说明:在mapreduce操作时,shuffle阶段会多次根据key值排序。但是在shuffle分组后,相同key值的values序列的顺序是不确定的(如下图)。如果想要此时value值也是排序好的,这种需求就是二次排序。 原始数据 无二次排序 有二次排序 a 12 a 12 a 12 b 34 b 34 b 13 c 90 b 23 b 23 b 23 b 13 b 34原创 2020-10-15 22:51:05 · 1372 阅读 · 0 评论 -
MapReduce编程案例之电商网站日志的行为分析
目录一、需求分析二、程序编写一、需求分析1.网站数据分析的四个指标:PV:PageView ,浏览量用户每打开一个网页就会被记录1次浏览量,多次打开同一个页面浏览量累计加一UV:Unique Visitor 独立访客数同一用户多次访问,独立访客数只算一次VV:visitor view,访客的访问次数同一用户完成浏览并关闭该网站时,访客的访问次数算一次IP:独立IP数同一IP不管访问了几个页面,独立IP数均为12.各个省份PV的统计:我们的需求分析是统计网站日志文件原创 2020-10-14 17:52:39 · 1310 阅读 · 1 评论 -
基于Java API操作HDFS
目录一、基于Maven环境构建工程二、基于Java API操作HDFS配置三、基于Java API 读取或上传HDFS文件内容一、基于Maven环境构建工程1.新建工程2.新建工程变成maven工程3.安装配置maven环境,编辑setting文件4.idea工具配置maven5.编辑pom.xml文件<properties> <hadoop.version>2.6.0</hadoop.version></properties>&l原创 2020-10-08 17:56:14 · 446 阅读 · 0 评论 -
MapReduce shuffle过程详解!
目录一、MR的shuffle过程二、Map shuffle三、Reduce shuffle一、MR的shuffle过程MR的shuffle过程:input -> map -> shuffle -> reduce ->outputMR的原理图:二、Map shuffle1.map()的数据会写入到内存(环形缓冲区:默认大小:100mb),当数据达到缓冲区总容量的80%(阈值)时,会将我们的数据spill到本地磁盘1)分区(partitioner):分原创 2020-10-12 16:57:53 · 8948 阅读 · 1 评论 -
MapReduce中数据类型详解
1.MR中所有的数据类型都要实现Writable接口,以便于这些类型定义的数据可以被序列化进行网络传输和文件存储2.MR基本数据类型BooleanWritable :布尔型ByteWritableDoubleWritableFloatWritable以下是常用的数据类型:IntWritableLongWritableText:使用UTF8格式存储我们的文本NullWritable:当<key,value>中key或者value为空时使用3.Writable <k原创 2020-10-11 16:52:48 · 4318 阅读 · 0 评论 -
基于WordCount详解MapReduce编程模型!
目录一、MapReduce编程模型概述二、WordCount案例一、MapReduce编程模型概述MR是分布式计算模型MR整个并行计算过程中会抽象出两个函数:map():它是对我们独立元素中的每一个元素进行并行计算操作的函数reduce():它是对我们独立元素中的数据进行合并一个简单 的MR程序,我们只需要指定map() reduce() input output,剩下的事情交个我们的框架来完成关于MR的数据处理流程:数据处理的阶段 input -> map -&g原创 2020-10-09 16:28:58 · 860 阅读 · 0 评论 -
YARN基本架构原理详解
目录一、概念理解二、YARN的架构(1)ResourceManager(2)ApplicationMaster(3)NodeManager三、Yarn基本流程四、一个job运行处理的整体流程五、Yarn调度器Scheduler六、YARN的HA架构一、概念理解Apache Hadoop YARN(Yet Another Resource Negotiator,另一种资源协调者)是一种新的Hadoop资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统原创 2020-06-22 11:59:59 · 5288 阅读 · 0 评论 -
MapReduce基本原理(详解!)
目录一、概念理解二、MapReduce计算模型三、Map shuffle(1)Partition(2)Collector(3)Sort(4)Spill(5)Merge四、Reduce shuffle(1)Copy(2)Merge Sort一、概念理解MapReduce是面向大数据并行处理的计算模型、框架和平台,它隐含了以下三层含义:1)MapReduce是一个基于集群的高性能并行计算平台。它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群。2)MapReduce是一原创 2020-06-21 23:36:53 · 40403 阅读 · 5 评论 -
HDFS分布式文件系统架构原理详解
目录一、HDFS的优缺点(1)优点(2)缺点二、HDFS架构原理(1)NameNode详解(2)Secondary NameNode详解(3)HDFS NameSpace详解(4)DataNode详解(5)Client详解(6)HDFS通信协议(7)HDFS的安全模式三、HDFS文件读写的解析(1)文件读取流程(2)文件写入流程四、副本机制HDFS(Hadoop Distributed File System)是Hadoop核心组成之一,是分布式计算中数据存储管理的基础,被设计成适合运行在通用硬件上的分布原创 2020-06-21 22:20:43 · 1949 阅读 · 0 评论 -
一篇文章搞定Hadoop常用命令
目录一、前述(1)启动Hadoop所有进程(2)单进程启动(3)关闭Hadoop所有进程(4)格式化二、常用命令(1)查看指定目录下内容(2)查看某个文件(3)创建文件夹(4)新建文件(5)将本地文件夹存储至HDFS(6)将本地文件移动到HDFS(7)下载文件(8)删除hadoop上指定文件或目录(9)将hadoop上某个文件重命名(10)显示占用的磁盘空间大小(11)HDFS中的文件复制(12)统计(13)HDFS中的文件合并后下载到本地(14)将正在运行的hadoop作业kill掉(15)安全模式(16原创 2020-06-14 22:29:55 · 348 阅读 · 0 评论 -
Centos7下Hadoop完全分布式安装
目录Centos7下Hadoop完全分布式安装第一步:安装文件第二步:免密登录配置(1)vim 的安装(2)host配置(3)关闭防火墙(4)实现免密登陆(5)安装NTP时间同步服务第三步:配置环境变量第四步:设置Hadoop配置文件(1)配置hadoop-env.sh文件(2)配置core-site.xml文件(3)配置hdfs-site.xml文件(4)配置mapred-site.xml文件(5)配置yarn-site.xml文件(6)修改 slaves 文件第五步:分发配置到 node2、node3原创 2020-06-03 17:45:08 · 568 阅读 · 0 评论