大数据~~Hadoop
一尘在心
这个作者很懒,什么都没留下…
展开
-
Hadoop学习之路(一)理论基础和逻辑思维
目录三个题目 第一题 第二题 第三题 正文回到顶部三个题目第一题问题描述统计出当前这个一行一个IP的文件中,到底哪个IP出现的次数最多解决思路//必须要能读取这个内容 BufferedReader br = new BuffedReader(new FileInputStream(new File("c:/big...转载 2018-07-19 17:32:17 · 698 阅读 · 0 评论 -
Hadoop生态系统架构以及Hadoop1和hadoop2的对比
Hadoop是什么Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐...原创 2018-08-24 17:36:26 · 2170 阅读 · 0 评论 -
机架感知概念及配置实现
一、机架感知是什么?告诉 Hadoop 集群中哪台机器属于哪个机架二、那么怎么告诉呢?Hadoop 对机架的感知并非是自适应的,亦即,hadoop 集群分辨某台 slave 机器是属于哪个 rack 并非是智能感知的,而是需要 hadoop的管理者人为的告知 hadoop 哪台机器属于哪个 rack,这样在 hadoop的 namenode 启动初始化时,会将这些机器与 r...原创 2018-08-24 17:47:43 · 6272 阅读 · 2 评论 -
Namenode HA原理分析
在hadoop1中NameNode存在一个单点故障问题,也就是说如果NameNode所在的机器发生故障,那么整个集群就将不可用(hadoop1中有个SecorndaryNameNode,但是它并不是NameNode的备份,它只是namenode的一个助理,协助namenode工作,对fsimage和edits文件进行合并,并推送给NameNode,防止因edits文件过大,导致NameNode重启...原创 2018-08-24 18:36:37 · 321 阅读 · 0 评论 -
YARN的架构及原理
初步了解YARN的架构及原理YARN 产生背景MapReduce存在的问题:1)JobTracker 单点故障。2)JobTracker 承受的访问压力大,影响系统的扩展性。3)不支持MapReduce之外的计算框架,比如Storm、Spark、Flink什么是YARNYARN 是Hadoop2.0版本新引入的资源管理系统,直接从MR1演化而来。核心思想:将MR1中...原创 2018-08-24 19:15:36 · 5742 阅读 · 1 评论 -
Spark和Hadoop的异同
解决问题的层面不一样首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件。同时,Hadoop还会索引和跟踪这些数据,让大数据处理和分析效率达到前所未有的高度。Spark,则是那么一个专门用来对...原创 2018-08-29 13:30:21 · 271 阅读 · 0 评论 -
大数据中的数据倾斜
文章结构 先大致解释一下什么是数据倾斜 再根据几个场景来描述一下数据倾斜产生的情况 详细分析一下在Hadoop和Spark中产生数据倾斜的原因 如何解决(优化)数据倾斜问题? 0x01 什么是数据倾斜简单的讲,数据倾斜就是我们在计算数据的时候,数据的分散度不够,导致大量的数据集中到了一台或者几台机器上计算,这些数据的计算速度远远低于平均计算速度,导...原创 2018-08-29 13:59:45 · 2036 阅读 · 0 评论 -
Hadoop Block数据块详解
分块磁盘也是由数据块组成的,一般默认大小是512字节,构建磁盘之上的文件系统一般是磁盘块的整数倍。在HDFS系统中,为了便于文件的管理和备份,引入分块概念(block)。这里的 块 是HDFS存储系统当中的最小单位,HDFS默认定义一个块的大小为64MB。当有文件上传到HDFS上时,若文件大小大于设置的块大小,则该文件会被切分存储为多个块,多个块可以存放在不同的DataNode上,整个过程...原创 2018-08-29 15:33:02 · 3600 阅读 · 0 评论 -
Hadoop 3.0 特性
官网:http://hadoop.apache.org/docs/r3.0.1/Apache Hadoop 3.0.1Apache Hadoop 3.0.1与以前的主要发行版(hadoop-2.x)相比具有许多重要的增强功能。这个版本通常是可用的(GA),这意味着它代表了API稳定性和质量的一点,我们认为这是生产就绪。概观鼓励用户阅读完整的发行说明。本页提供了主要更改的概述...原创 2018-08-29 16:34:12 · 448 阅读 · 0 评论 -
Hadoop技术选型和架构设计
Hadoop 2.x生态系统 Hadoop技术选型和架构设计原创 2018-08-29 16:41:10 · 629 阅读 · 0 评论 -
NameNode如何加载FSImage+EditsLog
在NameNode的启动过程中有加载FSImage+EditsLog这一必不可少的一项。关于文件fsImage和文件edits是用来存放什么,我在这里就不用在重复了吧。在本文我将详细的叙述NameNode是如何加载fsimage和edits文件的。 在NameNode节点启动之前,我们一般会在配置文件hdfs-default.xml中分别配置文件fsImage、edits所在的路径,...原创 2018-08-29 18:03:57 · 456 阅读 · 0 评论 -
Hadoop1.和hadoop2.的异同简洁总结
Hadoop1.和hadoop2.的异同 1.1 namenode可以以集群的形式部署了,增强了namenode水平扩展能力和可用性。 MapReduce将JobTracker中的资源管理和任务的生命周期,更名为yarn。(ResourceManager和nodeManager) MapReduce将JobTracker中的资源管理和任务的生命周期,更名为yarn。(Resour...原创 2018-08-29 19:38:03 · 1432 阅读 · 0 评论 -
Hadoop(MR,HDFS,YARN)组件知识点
Hadoophadoop2的三大核心:HDFS、MapReduce、YARNhadoop2的四大模块:Hadoop Common 为其他模块提供基础设施Hadoop DFS 一个高可用、高吞吐量的分布式文件系统、Hadoop MapReduce 一个分布式的离线并行计算框架、Hadoop YARN 一个全新的MapReduce框架,任务调度和资源管理。(1)、namenote启动过...原创 2018-08-30 11:17:52 · 420 阅读 · 0 评论 -
大数据十道经典海量数据处理面试题与十个方法大总结
第一部分、十道海量数据处理面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 此题,在我之前的一篇文章算法里头有所提到,当时给出的方案是:IP的数目还是有限的,最多2^32个,所以可以考虑使用hash将ip直接存入内存,然后进行统计。 再详细介绍下此方案:首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^...原创 2018-08-30 13:55:10 · 765 阅读 · 0 评论 -
Hadoop RPC机制的使用
一、RPC基础概念1.1 RPC的基础概念 RPC,即Remote Procdure Call,中文名:远程过程调用; (1)它允许一台计算机程序远程调用另外一台计算机的子程序,而不用去关心底层的网络通信细节,对我们来说是透明的。因此,它经常用于分布式网络通信中。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越...原创 2018-08-30 14:04:27 · 1199 阅读 · 1 评论 -
MapReduce shuffle过程原理
MapReduce的Shuffle过程介绍Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。Shuffle缓存流程:shuffle是MR处理流程中的一个过程,它的每一个处理步骤是分散在各个map task和reduce task...原创 2018-12-28 09:59:41 · 251 阅读 · 1 评论 -
MapReduce原理(执行机制)
MapReduce简介MapReduce是面向大数据并行处理的计算模型、框架和平台,它隐含了以下三层含义:1)MapReduce是一个基于集群的高性能并行计算平台(Cluster Infrastructure)。它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群。2)MapReduce是一个并行计算与运行软件框架(Software Framework)...原创 2018-08-31 18:57:21 · 609 阅读 · 0 评论 -
深入剖析MapReduce架构及原理(二)
深入剖析MapReduce架构及原理MapReduce 的基本架构MapReduce的架构和HDFS一样,MapReduce也是采用Master/Slave的架构,其架构图如下所示。 MapReduce包含四个组成部分,分别为Client、JobTracker、TaskTracker和Task,下面我们详细介绍这四个组成部分。1)Client 客户端每一个 Job ...原创 2018-08-31 18:02:02 · 258 阅读 · 0 评论 -
深入剖析MapReduce架构及原理(一)
深入剖析MapReduce架构及原理MapReduce应用场景MapReduce 定义Hadoop 中的 MapReduce 是一个使用简单的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错式并行处理TB级别的数据集。MapReduce 来源Hadoop MapReduce 源于 Google 在2004年12月份发表的 MapRed...原创 2018-08-31 17:18:47 · 2879 阅读 · 0 评论 -
Hadoop学习之路(二)Hadoop发展背景
目录Hadoop产生的背景 Hadoop是啥 HADOOP在大数据、云计算中的位置和关系 Hadoop的技术应用 HADOOP生态圈以及各组成部分的简介 获取数据的三种方式 国内HADOOP的就业情况分析 1、HADOOP就业整体情况 2、 HADOOP就业职位要求 正文回到顶部Hadoop产生的背景1. HADOOP最早起源于Nutch。Nutch的设...转载 2018-07-19 17:33:27 · 1066 阅读 · 0 评论 -
VMware 安装centos7
准备资料: CentOS-7-x86_64-Everything-1611 点击下载CentOS对,资料就这些第一步、 点击文件 再点击新建虚拟机第二步 、点击完新建虚拟机之后会跳出一个窗口 我一般都选择典型的因为比较方便 然后下一步第三步、第四步、版本这里需要注意 因为我安装的是CentOS是64位的所以我选择了CentOS 64位第五...原创 2018-08-07 16:43:31 · 154 阅读 · 0 评论 -
Centos7安装CDH6.3 (安装Hadoop大数据集群环境准备)
之前尝试过手动安装Hadoop环境特别麻烦,hadoop安装包还要编译,最近接触到Cloudera Manager 安装感觉特别方便;硬件要求 16G内存,512固态,虚拟机安装三台镜像,一主两从0:关闭防火墙查看防火墙状态systemctl status firewalld1我这里显示防火墙没有关闭关闭防火墙systemctl stop firewal...原创 2018-08-07 19:07:37 · 1926 阅读 · 2 评论 -
大数据 Hadoop生态系统
首先我们先了解一下Hadoop的起源。然后介绍一些关于Hadoop生态系统中的具体工具的使用方法。如:HDFS、MapReduce、Yarn、Zookeeper、Hive、HBase、Oozie、Mahout、Pig、Flume、Sqoop。Hadoop的起源Doug Cutting是Hadoop之父 ,起初他开创了一个开源软件Lucene(用Java语言编写,提供了全文检索引擎的架构,与...原创 2018-08-23 18:57:02 · 306 阅读 · 0 评论 -
YARN 精讲
YARN是什么Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。Hadoop2.0对MapReduce框架做了彻底的设计重构,我们称Hadoop2.0...原创 2018-08-28 14:33:23 · 556 阅读 · 0 评论 -
YARN调度器(Scheduler)
YARN调度器(Scheduler) 理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供...原创 2018-08-28 15:10:20 · 961 阅读 · 0 评论 -
你需要了解Namenode和Secondarynamenode的关系
我需要了解hadoop集群中的两个进程secondary namenode和namenode的区别在Hadoop中,有一些命名不好的模块,Secondary NameNode是其中之一。Secondary NameNode是NameNode的备份,是为了防止NameNode的单点失败的。但其实不是,但是也是跟namenode有关系的。我们主要了解Secondary NameNo...原创 2018-08-28 16:14:39 · 3603 阅读 · 0 评论 -
CDH安装大数据集群
在前一篇已经把环境安装完毕下面安装大数据集群如果没有安装环境请参考https://blog.csdn.net/zhanaolu4821/article/details/814842591:CDH页面安装集群在浏览器输入访问地址http://192.168.1.149:7180 用户名密码为admin,admin 这一步选择免费版就行,基本功能已经满足正常的开发需求 ...原创 2018-08-24 10:20:05 · 2363 阅读 · 0 评论 -
Hadoop详解五个进程的作用
问题导读:1.job的本质是什么?2.任务的本质是什么?3.文件系统的Namespace由谁来管理,Namespace的作用是什么?4.Namespace 镜像文件(Namespace image)和操作日志文件(edit log)文件的作用是什么?5.Namenode记录着每个文件中各个块所在的数据节点的位置信息,但是他并不持久化存储这些信息,为什么?6.客户端读写某个数据时,是否...原创 2018-08-28 18:24:23 · 10465 阅读 · 1 评论 -
Hadoop中Namenode单点故障的解决方案
Hadoop中Namenode单点故障的解决方案需求:实现namenode元数据的备份,解决namenode单点宕机导致集群不可用的问题。方案描述:当namenode所在服务器宕机的时候,我们可以利用namenode备份的元数据迅速重构新的namenode来投入使用。1. Hadoop本身提供了可利用secondarynamenode的备份数据来恢复namenode的元数据的...原创 2018-08-28 19:48:53 · 2428 阅读 · 0 评论 -
大数据采集、清洗、处理:使用MapReduce进行离线数据分析完整案例
1 大数据处理的常用方法大数据处理目前比较流行的是两种方法,一种是离线处理,一种是在线处理,基本处理架构如下:在互联网应用中,不管是哪一种处理方式,其基本的数据来源都是日志数据,例如对于web应用来说,则可能是用户的访问日志、用户的点击日志等。如果对于数据的分析结果在时间上有比较严格的要求,则可以采用在线处理的方式来对数据进行分析,如使用Spark、Storm等进行处理。比较贴切的...原创 2018-08-28 20:42:55 · 4155 阅读 · 1 评论 -
HDFS核心技术详解
HDFS核心技术详解我们都知道Hadoop 主要由HDFS和MapReduce 两个核心部分组成。其中最底部就是HDFS,它被用来存储Hadoop 集群中所有存储节点上的文件。hadoop的核心子项目——HDFS(分布式文件系统),下面将从HDFS的背景、基本概念 开始,步步深入了解HDFS的设计目标、HDFS的基本结构以及HDFS的相关操作等核心知识!(一)HDFS ...原创 2018-08-31 16:24:37 · 3744 阅读 · 0 评论 -
MapReduce中的map,shuffle、partition和combiner,reduce的含义及作用
Hadoop的计算框架主要是两个过程分别是map和reduce,但是还有好几个过程跟性能调优有关。如:shuffle、partition和combiner。shuffle:数据从map端传输到reduce端的过程。据说是可以期待奇迹发生的环节。计算框架总体的过程如下:map阶段:从磁盘读入数据 --> map函数 --> combine结果(非必需的过程)--> ...原创 2018-08-31 16:52:09 · 3022 阅读 · 0 评论 -
Yarn 框架原理及运作机制
1.1 YARN 基本架构YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster负责单个应用程序的管理。1.2 ...原创 2018-12-28 11:42:17 · 322 阅读 · 0 评论