![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
ysjh0014
QQ:3463446481
展开
-
在docker中部署hadoop完全分布式集群
之前写过一篇关于如何部署hadoop完全分布式集群,但是是在虚拟机中部署的,开三台虚拟机,电脑内存就占用的特别多,毕竟虚拟机比较占内存,而docker是一种操作系统级别的轻量级虚拟化技术,一个docker容器占用少量的内存,下面就详解部署hadoop分布式的步骤(我的是在阿里云服务器上部署的,系统是ubuntu)1.首先要在ubuntu中安装docker,可以参考之前的博文Docker的不同安...原创 2018-06-15 18:53:57 · 1760 阅读 · 0 评论 -
大数据项目之电信客服二
1.数据生产在实际生产中,这个环节并不会让你来做,更不会来模拟生产数据,但是这里是为了项目运行,也是为了让你连接每个环节2.项目创建在IDEA中先创建一个Java项目ct,然后在该项目中建立各个Module模块进行编写,这样比较清晰,比如这里的生产数据模块就可以建立一个ct_producer的Maven模块由于生产数据模块不是重点,只是作为实际生产环境中的一部分,所以这里不做过...原创 2018-11-29 18:25:39 · 1078 阅读 · 0 评论 -
大数据项目之电信客服一
1.项目需求对通话运营商的通话记录数据进行离线的分析处理,通话记录信息包含通话的手机号码,通话时间,通话时长,是否为主叫等信息2.项目架构这里对整个项目架构进行简单的说明首先通话数据是自己写代码生产出来的,然后使用Flume,实时采集数据,将采集到的数据写入Kafka,将Kafaka中的数据消费到HBase,最后写MapReduce程序对HBase中的数据进行离线分析,将最终结果写...原创 2018-11-29 18:06:53 · 1836 阅读 · 0 评论 -
Hadoop集群的ResourceManager HA高可用配置
ResourceManager HAyarn-site.xml:<configuration><!-- Site specific YARN configuration properties --><property> <name>yarn.nodemanager.aux-services</name> ...原创 2018-11-21 21:27:26 · 1294 阅读 · 1 评论 -
Hadoop集群的Namenode HA高可用配置
HA配置首先要有zookeeper集群,这里就不再说明zookeeper集群的搭建了,可以在我的前面的文章中找到我这里是在之前Hadoop单点的基础上进行HA配置的集群HA规划:cdh0: Namenode Datanode JournalNode NodeManager ZKcdh1:Namenode Datanode JournalNode Resourc...原创 2018-11-21 21:16:48 · 693 阅读 · 0 评论 -
hadoop集群部署
hadoop集群部署分为三种:本地部署 伪分布式部署 分布式部署分布式部署顾名思义前提要有至少多台服务器,所以这里只介绍前两种部署方式,但是本地部署非常简单,只有几步,按照官方文档完全可以进行,所以下面主要讲伪分布式部署方式伪分布式:1.准备工作:在linux环境下安装jdk和hadoop,上传压缩包----》解压----》检验是否安装成功2.在core-...原创 2018-05-25 21:16:47 · 1917 阅读 · 2 评论 -
NameNode启动过程以及SecondaryNameNode辅助功能
NameNode存储的是整个文件系统的元数据,存放在两个地方: *内存 *本地磁盘: fsimage镜像文件 edits编辑日志文件第一次启动hdfs时会进行格式化操作,目的就是为了生成fsimage镜像文件,用来存储整个文件系统的元数据以下是整个流程:第一次启动: 1)进行hdfs的格式化操作 2)生成fsimage镜像文件 3...原创 2018-05-28 09:44:38 · 1520 阅读 · 0 评论 -
HDFS启动时的safemode模式
安全模式safemode整个过程是从启动datanode到启动完毕 safemode的作用: *等待datanode向namenode发送块的报告 *namenode会将块的个数和fsimage和edits中的作比较,当达到99.999%的阈值时安全模式safemode会自行在30秒后 退出,这30秒的缓冲时间是为了...原创 2018-05-28 15:50:16 · 1500 阅读 · 0 评论 -
YARN的架构组件功能
hadoop1.0和hadoop2.0的最大区别就在于hadoop2.0多出了一个yarn,hadoop1.0中Mapreduce即承担集群资源的管理和调 度,又承担数据的处理,而hadoop2.0中将这两个任务分离开,yarn来对集群的资源进行管理和调度,Mapreduce来进行数据的处理,并且Mapreduce是运行在yarn上边的,yarn上不仅能运行Mapreduce这种并行计算框架,还...原创 2018-05-29 14:07:51 · 1086 阅读 · 0 评论 -
yarn对集群资源的管理和调度
*资源调度和资源隔离是yarn作为一个资源管理系统,最重要和最基础的两个功能,资源调度是由ResourceManager完成的,资源隔离是由各个NodeManager实现的*ResourceManager将某个NodeManager上资源分配给任务(这就是所谓的"资源调度")后,NodeManager需按照要求为任务提供相应的资源,甚至保证这些资源应具有独占性,为任务运行提供基础的保证,这就是...原创 2018-05-29 14:42:08 · 1050 阅读 · 0 评论 -
并行计算框架Mapreduce简介
hadoop的三个组件,先有mapreduce(分布式计算模型),后有hdfs,知道hadoop才有了yarn,因此掌握mapreduce很有必要,虽然现在都是使用流式处理框架,如storm,spark等,但是这几种框架的思想及原理都来源于mapreduceMapreduce: 思想:分而治之:map(映射)--->对每一部分的数据进行处理,可以高度并行(最核心的部...原创 2018-05-31 13:18:15 · 2675 阅读 · 0 评论 -
WordCount编程及执行流程
MapReduce程序分为三部分: map reduce driver这里先放出最经典的wordcount程序源码:public class WordCount extends Configured implements Tool{ //mappublic static class WordCountMap extends Mapper&...原创 2018-06-01 00:26:28 · 8948 阅读 · 0 评论 -
MapReduce框架的数据类型
在之前的文章WordCount编程及执行流程的源码中可以看出,wordcount程序中并没有使用java原生或者封装的数据类型,而是使用Text,LongWritable,IntWritable之类的数据类型,下面就介绍一下MapReduce框架的数据类型*该数据类型都实现Writable接口,以便用这些类型定义的数据可以被序列化进行网络传输和文件存储*基本的数据类型: I...原创 2018-06-01 14:13:29 · 940 阅读 · 0 评论 -
MapReduce执行流程Shuffle
Shuffle:*洗牌或者弄乱的意思*Collections.shuffle(List):随机得打乱参数里的元素顺序*MapReduce里Shuffle:描述着数据从map task输出到reduce task输入的这段过程下面就详细介绍Shuffle这段过程:*map task输出的<key,value>对,首先先放在内存(memory)中,然后会spill,溢写...原创 2018-06-01 19:47:04 · 219 阅读 · 0 评论 -
MapReduce编程模板及常见的优化
MapReduce编程模板:public class ModuleWordCount extends Configured implements Tool{// mappublic static class WordCountMap extends Mapper<LongWritable, Text, Text, IntWritable>{@Overrideprotec...原创 2018-06-01 20:10:46 · 335 阅读 · 4 评论 -
hadoop完全分布式搭建
之前的文章都是伪分布式的hadoop集群搭建,而完全分布式集群搭建可以在之前伪分布式的基础上进行修改,但是下面介绍的是完全从零开始搭建的首先要搭建完全分布式集群,至少要三台机器,这里使用的是三台虚拟机,然后进行规划,例如namenode,resourcemanager要放在哪台机器上,下面是我的三台机器的规划机器一: 静态ip:192.168.157.110:nameno...原创 2018-06-08 18:17:18 · 237 阅读 · 1 评论 -
大数据项目之电信客服三
1.启动Kafaka集群这里的Kafka集群搭建就不再说了,如果不会搭建可以看我之前的博文首先启动Zookeeper集群,然后再启动Kafka集群bin/zkServer.sh startbin/kafka-server-start.sh config/server.properties2.创建Kafka主题bin/kafka-topics.sh --zookeeper...原创 2018-11-29 18:38:25 · 749 阅读 · 0 评论