Hadoop
文章平均质量分 84
XiaodunLP
祝福自己.^_^
展开
-
YARN
1.1、YARN 概述YARN(Yet Another Resource Negotiator)YARN 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操 作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序YARN 是 Hadoop2.x 版本中的一个新特性。它的出现其实是为了解决第一代 MapReduce 编程 框架的不足,提...原创 2019-02-02 13:42:35 · 149 阅读 · 0 评论 -
MapReduce -----MapReduce 调优
1、MapReduce 参数调优 1.1、资源相关参数 以下参数是在用户自己的 mr 应用程序中配置就可以生效: 1、mapreduce.map.memory.mb: 一个 Map Task 可使用的资源上限(单位:MB),默认为 1024。 如果 Map Task 实际使用的资源量超过该值,则会被强制杀死。 2、mapreduce.reduce.memory.mb: 一个 Re...原创 2019-02-02 13:45:07 · 348 阅读 · 0 评论 -
CentOS-6.7 编译 hadoop-2.6.5
1、阅读编译文档 1、 准备一个 hadoop 源码包,我选择的 hadoop 版本是:hadoop-2.6.5-src.tar.gz,在 hadoop-2.6.5 的源码包的根目录下有一个文档叫做 BUILDING.txt,这其中说明了编译 hadoop 所需要的一些编译环境相关的东西。不同的 hadoop 版本的要求都不一样。对应 的版本参照 BUILDING.txt 请仔细阅读: ...原创 2019-02-03 01:07:24 · 202 阅读 · 0 评论 -
WordCount.java
package com.mapreduce.wordcount;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoo...原创 2019-02-14 18:37:38 · 718 阅读 · 0 评论 -
MapReduce---TopN
package com.mapreduce.topn;import org.apache.hadoop.io.Text;public class Item implements Comparable<Item>{ private Long count; private String content; public Item() { }...原创 2019-02-14 18:41:46 · 209 阅读 · 0 评论 -
Hadoop HA 集群搭建
Hadoop HA 集群搭建 1、Hadoop HA 原理概述 为什么会有 hadoop HA 机制呢? HA:High Available,高可用 在Hadoop 2.0之前,在HDFS 集群中NameNode 存在单点故障 (SPOF: A Single Point of Failure)。 对于只有一个 NameNode 的集群,如果 NameNode 机器出现故障(比如宕机或...原创 2019-02-06 03:26:03 · 185 阅读 · 0 评论 -
IT十年--大数据系列
个人觉得IT十年的大数据系列的博文非常干货。对于希望掌握整个大数据行业的技术栈的一个初步了解非常的有帮助,本人也是有事没事的上来看看。所以整理出来一个目录,放在自己的博客里,方便寻找学习。大数据(一) - hadoop生态系统及版本演化 大数据(二) - HDFS 大数据(三) - YARN 大数据(四) - MapReduce&nb...原创 2019-02-07 23:22:42 · 161 阅读 · 0 评论 -
海量数据面试题
海量数据面试题1、给个超过100G的logfile, log中存着IP地址, 设计算法找到出现次数最多的IP地址? 第一题:首先我们的思路就是利用哈希进行文件的切分,我们把100G大小的logfile分为1000份,那么下来差不多没一个文件就是100M左右,然后再利用哈希函数除留余数的方法分配到对应的编号文件中,然后得出每个文件中出现次数最多的IP,然后堆排序取得...原创 2019-02-07 23:30:00 · 177 阅读 · 0 评论 -
Hadoop入门2--HDFS
HDFS入门1.HDFS基本概念1.1 HDFS介绍HDFS是 Hadoop Distribute File System的简称,意为: Hadoop分布式文件系统。是 Hadoop核心组件之一,作为最底层的分布式存储服务而存在。分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。分布式文件系统在大数据时代有着广泛的应用前景,它们为存储和处理超大规模...原创 2018-06-26 23:49:09 · 302 阅读 · 0 评论 -
Hadoop入门1
Hadoop介绍 Hadoop是Apache旗下的一个用Java语言实现的开源软件框架,是一个开发和于宁处理大规模数据的软件平台.允许使用简单的编程模型在大量计算机集群上对大数据集进行分布式处理. 上图显示了一个Hadoop从1.0到2.0的一个变迁.现在Hadoop3.0也有的,但是我现在是以2.0为基础学习的. 狭义上说,Hadoop指Apache这款...原创 2018-06-26 13:54:16 · 351 阅读 · 1 评论 -
MapReduce--------MapReduce 的 Shuffle 机制
1、MapReduce 的 Shuffle 机制1.1、概述1、MapReduce 中,mapper 阶段处理的数据如何传递给 reducer 阶段,是 MapReduce 框架中 最关键的一个流程,这个流程就叫 Shuffle2、Shuffle: 数据混洗 ——(核心机制:数据分区,排序,局部聚合,缓存,拉取,再合并 排序)3、具体来说:就是将 MapTask 输出的处理结果数据...原创 2019-02-02 13:36:25 · 295 阅读 · 0 评论 -
MapReduce----3.MapReduce 典型编程场景
1、MapReduce 多 Job 串联1.1、需求一个稍复杂点的处理逻辑往往需要多个 MapReduce 程序串联处理,多 job 的串联可以借助 MapReduce 框架的 JobControl 实现1.2、实例以下有两个 MapReduce 任务,分别是 Flow 的 SumMR 和 SortMR,其中有依赖关系:SumMR 的输出是 SortMR 的输入,所以 SortMR...原创 2019-02-02 13:32:01 · 228 阅读 · 0 评论 -
MapReduce -----2.MapReduce 常用三大组件
1、流量统计项目案例1.1、数据样例数据样本:1363157984040 13602846565 5C-0E-8B-8B-B6-00:CMCC 120.197.40.4 2052.flash2-http.qq.com 综合门户 15 12 1938 2910 200字段释义:1.2、需求 1、 统计每一个用户(手机号)所耗费的总上行流量、总下行流量,总流量2、 得出...原创 2019-02-02 13:10:50 · 483 阅读 · 0 评论 -
创建Hadoop集群时踩得坑--格式化的时候配置文件报错
格式化的时候配置文件报错问题描述:当我们搭建好集群,进行格式化的时候: hadoop namenode -format (注意:在namenode节点上格式化),并没有在结尾附近出现**successfully**字样,而是出现了如下图的报错信息:Caused by: org.xml.sax.SAXParseException; systemId: file:/home/hadoop/...原创 2018-11-11 19:23:32 · 3611 阅读 · 1 评论 -
Google分布式系统三大论文(三)MapReduce: Simplified Data Processing on Large Clusters
MapReduce:大型集群上的简单数据处理摘要MapReduce是一个编程模型和一个处理和生成大数据集的相关实现。用户指定一个map函数处理一个key-value对来生成一组中间key-value对;指定一个reduce函数合并所有和同一中间key值相联系的中间value值。许多现实世界中的任务以这个模型展现,就像文中展示的那样。...原创 2018-11-10 17:12:54 · 255 阅读 · 0 评论 -
Google分布式系统三大论文(二)Bigtable: A Distributed Storage System for Structured Data
修正了alex翻译版的几个欠妥之处Bigtable:一个分布式的结构化数据存储系统摘要Bigtable是一个管理结构化数据的分布式存储系统,它被设计用来处理海量数据:分布在数千台通用服务器上的PB级的数据。Google的很多项目将数据存储在Bigtable中,包括Web索引、Google Earth、Google Finance。这...原创 2018-11-10 17:11:06 · 401 阅读 · 0 评论 -
Hadoop起源之--Google 分布式系统三大论文 (一) The Google File System
The Google File System&nbsp;中文版摘要我们设计并实现了Google文件系统,一个面向分布式数据密集型应用的、可伸缩的分布式文件系统。虽然运行在廉价的日用硬件设备上,但是它依然了提供容错功能,为大量客户机提供了很高的总体性能。虽然与很多之前的分布式文件系统有很多相同目标,但是,我们的设计已经受应用的负载情况和...原创 2018-11-10 17:09:00 · 885 阅读 · 0 评论 -
集群分发脚本xsync
需求分析:循环复制文件到所有节点的相同目录下。(1)原始拷贝:rsync -rvl /opt/module root@hadoop103:/opt/(2)期望脚本:xsync 要同步的文件名称(3)在/usr/local/bin这个目录下存放的脚本,可以在系统任何地方直接执行,需要制定路径。 案例实操:(1)在/usr/local/bin目录下创建x...原创 2019-01-31 15:04:58 · 1408 阅读 · 2 评论 -
编写分发脚本xcall
1)需求分析:在所有主机上同时执行相同的命令xcall +命令2)具体实现(1)在/usr/local/bin目录下创建xcall文件,文件内容如下:#!/bin/bashpcount=$#if((pcount==0));then echo no args; exit;fiecho -------------localhost------...原创 2019-01-31 15:13:22 · 352 阅读 · 0 评论 -
Hadoop 体系介绍
目录1、Hadoop 快速入门1.1、数据 1.2、大数据1.2.1、概念1.2.2、大数据特点1.2.3、大数据价值1.3、Hadoop 的产生背景1.4、什么是 Hadoop?1.5、hadoop 在大数据和云计算当中的位置和关系1.6、Hadoop 技术应用架构概览1.6.1、Hadoop 应用于数据服务基础平台建设1.6.2、Hadoop 用...原创 2019-02-02 11:03:01 · 677 阅读 · 1 评论 -
Hadoop 集群搭建
目录1、基础集群环境准备1.1、修改主机名1.2、设置系统默认启动级别1.3、配置 hadoop 用户 sudoer 权限 1.4、配置 IP1.5、关闭防火墙/关闭 Selinux1.6、添加内网域名映射1.7、安装 JDK 做完以上步骤后,可以开始克隆虚拟机。因为以上系统的配置,都是一些基础性的操作。 都是必须的。1.8、同步服务器时间1.9、...原创 2019-02-02 11:20:57 · 279 阅读 · 0 评论 -
HDFS---一.HDFS 基础使用
1、HDFS 前言HDFS:Hadoop Distributed File System Hadoop 分布式文件系统,主要用来解决海量数据的存 储问题1、 设计思想 分而治之:将大文件,大批量文件,分布式的存放于大量服务器上。以便于采取分而治 之的方式对海量数据进行运算分析2、 在大数据系统架构中的应用 为各类分布式运算框架(MapReduce,Spark,Tez,Flink,…)提...原创 2019-02-02 11:46:06 · 326 阅读 · 0 评论 -
HDFS----2.HDFS 原理剖析
目录1、HDFS 工作机制1.1、概述1.2、HDFS 写数据流程1.2.1、概述1.2.2、详细步骤图1.2.3、详细步骤文字说明1.3、HDFS 读数据流程1.3.1、概述1.3.2、详细步骤图1.3.3、详细文字说明2、NameNode 工作机制2.1、NameNode 职责2.2、NameNode 元数据管理2.3、NameNode ...原创 2019-02-02 11:57:19 · 149 阅读 · 0 评论 -
MapReduce----1. MapReduce 基础入门
目录1、MapReduce 入门1.1、什么是 MapReduce1.2、为什么需要 MapReduce1.3、MapReduce 程序运行演示1.4、MapReduce 示例程序编写及编码规范1.5、MapReduce 运行方式及 Debug 本地运行模式:Eclipse 开发环境下本地运行,好处是方便调试和测试集群运行模式:打 jar 包,提交任务到集群运行...原创 2019-02-02 12:13:05 · 275 阅读 · 0 评论 -
创建Hadoop集群时踩得坑--datanode不翼而飞问题
datanode不翼而飞问题我们格式化成功后,启动集群.之后我们用jps查看进程,老大namenode出现了,十分开心.但是发现是个光杆司令,小弟datanode一个没有.干活的一个没来,问题之严重,甚是惶恐..此时我们去datanode的节点查看启动日志(Hadoop的安装目录下的logs文件中,大家一定要学会出现问题查看日志):简单解读一下:不相容的clusterIDs(集群id)...原创 2018-11-11 20:13:30 · 626 阅读 · 2 评论