Hadoop
文章平均质量分 79
Hadoop相关配置。文档信息。代码案例
Z_Data
大学计算机专业老师一枚,高级开发工程师,专注大数据相关技术分享,实战项目开发。
展开
-
Hadoop分布式计算框架(MapReduce)——案例实践:气象大数据离线分析
数据格式由Year(年)、Month(月)、Day(日)、Hour(时)、Temperature(气温)、Dew(湿度)、Pressure(气压)、Wind dir.(风向)、Wind speed(风速)、Sky Cond.(天气状况)、Rain 1h(每小时降雨量)、Rain 6h(每6小时降雨量)组成。打包成功后,在项目的targer目录下找到编译好的bigdata-1.0-SNAPSHOT.jar包,然后将其上传至/home/hadoop/shell/lib目录下(没有相关目录可手动创建)原创 2023-12-21 16:46:18 · 1600 阅读 · 5 评论 -
Hadoop分布式计算框架(MapReduce)——MapReduce运行机制
它首先为Map任务发出请求,该请求优先级要高于Reduce任务的请求,这是因为所有的Map任务必须在Reduce的排序阶段能够启动前完成,直到有5%的Map任务已经完成时,为Roduce任务的请求才会发出。在Map任务和Reduce任务运行时,子进程和自己的父Application Master通过接口进行通信,默认每隔3s,任务通过这个接口向自己的Application Master报告进度和状态(包括计数器), Application Master会形成一个作业的汇聚视图。原创 2023-12-21 16:37:12 · 145 阅读 · 0 评论 -
Hadoop分布式计算框架(MapReduce)——初识MapReduce
MapReduce 是一个使用简单的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错式并行处理TB级别的数据集。MapReduce是一个并行程序的计算模型与方法MapReduce是一个并行程序运行的软件框架MapReduce是一个基于集群的高性能并行计算平台。原创 2023-12-21 14:30:23 · 172 阅读 · 0 评论 -
案例实践:YARN调度器的配置与使用
以Hadoop自带的WordCount为例,操作演示公平调度器的配置与使用。原创 2023-09-28 15:12:16 · 490 阅读 · 0 评论 -
YARN的调度器
理想情况下,YARN应用发出的资源请求应该立刻给予满足,然而在现实中,资源是有限的。在一个繁忙的集群上,一个应用经常需要等待才能得到所需要的资源。YARN调度器的工作就是根据既定策略为应用分配资源。原创 2023-09-28 15:06:00 · 347 阅读 · 0 评论 -
YARN的容错性
由于Hadoop致力于通过廉价的商用房服务器提供服务,这样就很容易导致在YARN中运行的各种应用程序出现任务失败或节点宕机,最终导致应用程序不能正常执行的情况。为了更好地满足应用程序的正常运行,YARN通过以下几个方面来保障容错性。原创 2023-09-28 15:02:40 · 159 阅读 · 0 评论 -
MapReduce ON YARN工作流程
YARN是一个统一的资源调度框架,它可以运行很多种应用程序,如MapReduce、spark、Flink等,接下来以MapReduce为例详细介绍作业在YARN中的工作流程。原创 2023-09-28 15:01:44 · 148 阅读 · 0 评论 -
YARN架构设计与工作原理
Apache Hadoop另一种资源协调者(YARN)是一种新的Hadoop资源管理器,是一个通用的资源管理系统,可为上层应用提供统一的资源管理和作业调度服务,它的引入为集群在资源利用、资源的统一管理调度和数据共享等方面带来了巨大的好处。原创 2023-09-28 15:00:37 · 746 阅读 · 0 评论 -
HDFS高可用(HA)
为了整个系统的可靠性,我们通常会在系统中部署两台或多台主节点,多台主节点形成主备的关系,但是某一时刻只有一个主节点能够对外提供服务,当某一时刻检测到对外提供服务的主节点“挂”掉之后,备用主节点能够立刻接替已挂掉的主节点对外提供服务,而用户感觉不到明显的系统中断。这样对用户来说整个系统就更加的可靠和高效。原创 2023-09-21 11:27:28 · 1256 阅读 · 0 评论 -
Shuffle机制运行原理
2.4.1 概述1)mapreduce中,map阶段处理的数据如何传递给reduce阶段,是mapreduce框架中最关键的一个流程,这个流程就叫shuffle;2)shuffle: 洗牌、发牌(核心机制:数据分区、排序、缓存);3)具体来说:就是将maptask输出的处理结果数据,分发给reducetas...转载 2018-11-07 11:52:38 · 478 阅读 · 0 评论 -
HDFS集群使用效果演示
1 HDFS的基本使用查看集群状态 1、打开web控制台查看HDFS集群信息,在浏览器打开http://192.168.18.64:50070/2、使用命令查看:hdfs dfsadmin -report使用shell命令操作hdfs 从HDFS下载文件hadoop fs -get /wordcount/input/wordcount_content.txt #下...原创 2018-11-07 14:34:21 · 397 阅读 · 0 评论 -
HDFS基本概念----初识HDFS
目录 1 、HDFS的介绍2、 HDFS设计目标3、 HDFS的特点4、 hdfs核心设计思想及作用5、 重要特性如下:1 、HDFS的介绍源自于Google的GFS论文 发表于2003年10月 HDFS是GFS克隆版 ,HDFS的全称是Hadoop Distributed File System易于扩展的分布式文件系统,运行在大量普通廉价机器上,提供容错机制,为大...原创 2018-11-07 15:11:35 · 480 阅读 · 0 评论 -
HDFS的shell操作
1、 HDFS shell操作HDFS提供shell命令行客户端,使用方法如下:2 、命令行客户端支持的命令参数[-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-chgrp [-R] G...原创 2018-11-07 15:32:22 · 237 阅读 · 0 评论 -
Hadoop回收站trash
Hadoop回收站trash,默认是关闭的。 建议最好还是把它提前开开,否则误操作的时候,就欲哭无泪了 修改conf/core-site.xml,增加复制代码 <property> <name>fs.trash.interval</name> <value>1440</value> <description&...原创 2018-11-07 17:56:37 · 370 阅读 · 0 评论 -
使用Java操作HDFS ----- 配置开发环境
目录1、下载winutils的windows版本https://github.com/SweetInk/hadoop-common-2.7.1-bin2、解压 hadoop-2.7.1.tar.gz 到windows指定的目录。如(D:\java\hadoop-2.7.1)3、配置环境变量4、压缩包(hadoop-common-2.7.1-bin-master.zip)里的hado...原创 2018-11-07 17:59:37 · 646 阅读 · 0 评论 -
NameNode详解
目录 1、NameNode的功能2、 NameNode 启动过程3、 NameNode元数据管理4、 安全模式1、NameNode的功能 负责客户端请求的响应 元数据的管理(查询,修改) 2、 NameNode 启动过程 NameNode启动的时候首先将fsimage(镜像)载入内存,并执行(replay)编辑日志editlog的的各项操作 ...原创 2018-11-08 09:32:17 · 9617 阅读 · 0 评论 -
HADOOP HA概述
目录 1、 背景2、 HA(High Available)概念1、 背景 在Hadoop 2.0.0之前,NameNode是HDFS集群中的单点故障(SPOF)。每个群集都有一个NameNode,如果该机器或进程不可用,整个群集将不可用,直到NameNode重新启动或在单独的计算机上启动为止。这在两个主要方面影响了HDFS集群的总体可用性: 在计划外事件(例如机器崩溃)...原创 2018-11-08 09:34:11 · 306 阅读 · 0 评论 -
Hadoop HA集群配置
目录 一、 基础配置创建7台机器,设置静态ip分别如下:2、 hadoop配置集群规划安装步骤1、安装配置zooekeeper集群(在ha5上)(更详细zookeeper安装步骤参见zookeeper安装)2、安装配置hadoop集群(在ha1上操作)2.1解压2.2配置HDFS(hadoop2.0所有的配置文件都在$HADOOP_HOME/etc/hado...原创 2018-11-08 09:34:33 · 620 阅读 · 0 评论 -
快速步入hadoop世界
概述:1.了解HADOOP产生背景及HADOOP生态圈2.体会HADOOP和大数据、云计算等概念之间的关系3.了解HADOOP的相关应用案例4.了解分布式系统的概念首次接触大数据框架,总体是让学生建立起大数据和分布式的感性认识和宏观概念1、理解hadoop是什么,它的应用场景什么,大体上怎么用2、通过一个案例的演示说明,理解数据挖掘系统的基本流程和结构第一节:HADOOP...原创 2018-11-06 20:30:26 · 319 阅读 · 0 评论 -
Hadoop集群环境搭建
目录1、 HADOOP集群规划2、 HADOOP集群安装步骤 3、分别配置三台机器的静态ip4、分别修改三台机器hosts5、分别为每台机器创建一个名为“hadoop”的用户6、分别为每台机器的“hadoop”用户配置sudo权限7、关闭每台机器的防火墙8、安装 jdk-7u55-linux-i586.tar.gz9、三台机器分别切换为hadoop用户...原创 2018-11-07 09:37:34 · 224 阅读 · 0 评论 -
HDFS集群启动、YARN集群、简单操作演示
目录 启动集群 1、格式化HDFS 因为HDFS也是文件系统,第一次使用一个文件系统都要格式化 2、启动hdfs集群(注意启动集群时,最好将集群中所有机器的时间设置一致 3、启动yarn集群 4、使用web查看集群的状态 5、hdfs简单操作演示 6、系统自带mapreduce案例演示 启动集群 1、格式化HDFS 因为HDFS也是文件系统,第一次使...原创 2018-11-07 14:16:26 · 2396 阅读 · 0 评论