Hadoop
长风。
打篮球敲代码的阿风
展开
-
Hadoop单机版部署
1、 新建一个虚拟机 2、 配置网络,修改主机名(重启永久生效) 网络配置(NAT模式) 1、目的 为了实现虚拟机和虚拟机以及虚拟机和你电脑的链接 2、配置 编辑–>虚拟网络编辑器—>NAT模式---->修改网关和子网IP [root@linux01 ~]# :vi /etc/sysconfig/network-scripts/ifcfg-eth0 #按a或者i编辑 如下:...原创 2019-03-29 14:42:36 · 243 阅读 · 0 评论 -
YARN的工作流程(资源管理框架)
一、服务组件 1、ResourceManage 全局的资源管理器,整个集群只有一个,负责集群资源的统一管理和调度分配。 - 功能 - - a) 处理客户端请求。 - b) 启动/监控ApplicationMaster。 - c) 监控NodeManager。 - d) 资源分配与调度。 2、NodeManager 整个集群有多个,负责单节点资源管理和使用...原创 2019-03-29 14:59:19 · 352 阅读 · 0 评论 -
hadoop的shuffle过程之mapreduce的知识点
一、Map端的shuffle Map端会处理输入数据并产生中间结果,这个中间结果会写到本地磁盘,而不是HDFS。每个Map的输出会先写到内存缓冲区中,当写入的数据达到设定的阈值时,系统将会启动一个线程将缓冲区的数据写到磁盘,这个过程叫做spill。 在spill写入之前,会先进行二次排序,首先根据数据所属的partition进行排序,然后每个partition中的数据再按key来排序。pa...原创 2019-04-15 16:23:58 · 207 阅读 · 0 评论 -
关于hive,mapreduce,hadoop讲解
mapreduce知识 1.什么是mapreduce?特点? mapreduce分为map端和reduce端 map端映射,reduce端归约 mapreduce是分布式计算框架,用于处理海量数据 特点: 易于编程, 高扩展 适合海量数据的处理 有良好的容错性 2.maptask和reducetask的区别? maptask解析数据通过map方法写入磁盘 reducetask通过复...原创 2019-04-24 11:37:42 · 293 阅读 · 0 评论