
HadoopConcept
Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理
ChenPD27595
The only thing stronger than your craving for blood is your love for this one girl.
展开
-
CDH的Hadoop集群搭建
创建一个新的虚拟机分配8G+内存,100G+硬盘,4核+处理器,配域名映射,免密,ip地址,主机域名映射一:Linux中安装CDHlinux中域名映射vi /etc/hosts修改固定ip地址vi /etc/sysconfig/network-scripts/ifcfg-ens33 配置免密 ssh-keygen --一路回车 ssh-copy-id doitcdh --分发免密给自己在/opt目录下创建一个apps文件夹上传文件夹到此目录下详细步骤:①: vi.原创 2020-12-09 22:24:49 · 746 阅读 · 1 评论 -
LINUX中HADOOP集群搭建
1安装虚拟机2基本配置设置ip地址重启网络服务关闭防火墙设置linux域名映射修改主机中的域名映射cd C:\Windows\System32\drivers\etc\hosts3 在linux上安装jdk虚拟机上安装未下载好的指令一:虚拟机上安装jdk1:上传jdk压缩包并解压2:配置JAVA_HOME刷新查看是否部署成功二: 虚拟机中安装tomcat1: 上传tomcat压缩包 并解压2:在tomcat的home目录的bin目录下执行./st原创 2020-11-23 15:01:54 · 624 阅读 · 1 评论 -
MR程序在YARN上的生命周期
将main方法中的job提交到resourcemanager(RM)中resourcemanager 返回其一个jobID和工作目录初始化job(①在HDFS中创建一个带有jobID的工作目录②初始化配置在job.xml文件中③上传jar包④计算任务切片)启动程序(到RM中有一个applicationmaster(AM)负责的全部job中找到其相对应的jobID,然后JOB会去找scheduler(调度器)去申请一个默认容器[1c,1.5G],然后调度器生成调度任务(去nodemanager(NM).原创 2020-11-20 23:06:14 · 299 阅读 · 0 评论 -
MR程序数据倾斜现象
数据倾斜出现现象整个job执行很久,或者无法执行成功,无法执行完毕数据倾斜出现原因原因 shuffle -->分区逻辑 key本身就是倾斜的 内存不足分区逻辑(可能取模之后就直接分配不均衡)key倾斜(有一个key的数量多取模之后它的分区数据也多)数据倾斜解决方法重写分区逻辑重新设计key √增加reduce的并行度 2----->10避免shuffle(reduce没有或为1)增加一些内存...原创 2020-11-19 14:00:17 · 561 阅读 · 0 评论 -
M-R程序内部处理数据简单流程
job提交的时候初始化JOB ①:输入路径 ②:reduce的个数 ③:输出路径 ④:maptask ⑤:reducetask根据输入路径 计算任务切片 split[]根据任务切片 初始化maptask(文件名,startoffset(处理数据的起始位置),length,map方法)maptask运行maptask处理数据 输入路径 >>Reader>>readline>>(K[LongWritable],v[Text])&g.原创 2020-11-19 13:17:08 · 596 阅读 · 0 评论 -
M-R程序设计核心思想
单节点无法处理海量数据多个节点并行处理数据 并行(同时处理不同的数据)任务划分(在HDFS的一个物理数据块为一个任务切片) 提高了本地处理数据的转换率任务就是jar包 移动分配 (移动运算)map端处理数据(局部结果) 结果汇总reduce端 对map端的结果进行聚合 分区器 分组器聚合的任务 聚合的逻辑maptask reducetask job分区器 分组器分区器:有不同的数据 将不同的数据通过hashcode取模划分不同的任务分组器:通过key 分.原创 2020-11-19 12:42:21 · 292 阅读 · 0 评论