![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
xiaomin_____
努力~~
展开
-
mapreduce的作业流程
mapreduce的一个完整作业流程是怎么样的呢,相信刚接触hadoop,刚写mapreduce的初学者都有很大的困扰,下面的图来自http://horicky.blogspot.com/2008/11/hadoop-mapreduce-implementation.html,是我看到的讲MapReduce最好的图。 以Hadoop带的wordcount为例子(下面是启动行): ...原创 2013-04-24 17:47:26 · 106 阅读 · 0 评论 -
与 Hadoop 对比,如何看待 Spark 技术?
我本人是类似Hive平台的系统工程师,我对MapReduce的熟悉程度是一般,它是我的底层框架。我隔壁组在实验Spark,想将一部分计算迁移到Spark上。年初的时候,看Spark的评价,几乎一致表示,Spark是小数据集上处理复杂迭代的交互系统,并不擅长大数据集,也没有稳定性。但是最近的风评已经变化,尤其是14年10月他们完成了Peta sort的实验,这标志着Spark越来越接近替代Ha...原创 2015-10-08 11:58:32 · 73 阅读 · 0 评论 -
Initialization failed for block pool Block pool(转载)
2014-06-18 20:34:59,622 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for block pool Block pool <registering> (Datanode Uuid unassigned) service to localhost/127...原创 2017-05-05 17:15:36 · 158 阅读 · 0 评论 -
记录:hadoop 2.5.2 集群动态增加新datanode 无法通信的问题
但是在namenode上使用hdfs dfsadmin -report 看不到新增加的datanode。查看datanode日志:2014-12-02 18:48:42,046 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Block pool BP-1446562160-127.0.0.1-1417496109738 (Da...原创 2017-05-05 18:20:04 · 117 阅读 · 0 评论 -
Cloudera Manager简介
大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来。为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选择合适的技术,了解大数据各种技术之间的关系,选择合适的语言。我们可以带着下面问题来阅读本文章:1.hadoop都包含什么技术?2.Cloudera公司与hadoop的关系是什么,都有什么...原创 2017-05-05 22:50:02 · 127 阅读 · 0 评论 -
Win下Eclipse提交Hadoop程序出错:org.apache.hadoop.security.AccessControlException: Permi
描述:在Windows下使用Eclipse进行Hadoop的程序编写,然后Run on hadoop 后,出现如下错误:11/10/28 16:05:53 INFO mapred.JobClient: Running job: job_201110281103_000311/10/28 16:05:54 INFO mapred.JobClient: map 0% reduce 0%11/10...原创 2017-05-09 10:54:05 · 113 阅读 · 0 评论 -
Hadoop端口一览表
http://blog.csdn.net/wufg2002adai/article/details/8495552 hadoop能用到的系统端口 hadoop系统部署时用到不少端口。有的是Web UI所使用的,有的是内部通信所使用的,有的是监控所使用的。实际系统中可能用于防火墙的端口设计。一些内部通信用的端口可能也需要外部能访问。如两个集群的数据对拷。1.系统8...原创 2017-05-09 13:56:52 · 302 阅读 · 0 评论 -
hadoop集群之HDFS和YARN启动和停止命令
假如我们只有3台linux虚拟机,主机名分别为hadoop01、hadoop02和hadoop03,在这3台机器上,hadoop集群的部署情况如下:hadoop01:1个namenode,1个datanode,1个journalnode,1个zkfc,1个resourcemanager,1个nodemanager;hadoop02:1个namenode,1个datanode,1个...原创 2017-05-09 16:12:02 · 240 阅读 · 0 评论 -
使用Docker在本地搭建Hadoop分布式集群
http://www.cnblogs.com/felixzh/p/4992178.html 学习Hadoop集群环境搭建是Hadoop入门必经之路。搭建分布式集群通常有两个办法:要么找多台机器来部署(常常找不到机器)或者在本地开多个虚拟机(开销很大,对宿主机器性能要求高,光是安装多个虚拟机系统就得搞半天……)。那么,问题来了!有没有更有可行性的办法?提到虚拟化,D...原创 2017-05-09 16:49:56 · 116 阅读 · 0 评论 -
How-to: Resolve "Datanode denied communication with namenode because hostname c
Reference: https://issues.apache.org/jira/browse/HDFS-5338Error:org.apache.hadoop.hdfs.server.protocol.DisallowedDatanodeException: Datanode denied communication with namenode because hostname ca...原创 2017-05-10 11:19:04 · 167 阅读 · 0 评论 -
Docker环境下Hadoop分布式集群搭建
2017年伊始,如今已经而立之年,这几年,五味杂陈,各中滋味,只能感叹时光飞逝!抱着归零的心态,春节期间,了解了一下Hadoop技术,在windows环境下,利用dockerTool box,搭建hadoop分布式集群,以便后续持续学习。整理如下: Docker环境下Hadoop分布式集群搭建集群环境介绍服务器容器创建环境验证 ...原创 2017-05-10 15:51:50 · 113 阅读 · 0 评论 -
HDFS的运行原理
简介HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。HDFS有很多特点: ① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。 ② 运行在廉价的机器上。 ③ 适合...原创 2017-05-10 17:09:27 · 82 阅读 · 0 评论 -
搭建Hadoop2.7.3+Hive2.1.1及MySQL(配置Hive)(三)
续上一篇:搭建Hadoop2.7.3+Hive2.1.1及MySQL(配置Hive)(二)准备工作下载最新连接器地址https://dev.mysql.com/downloads/connector/j/例子:下载mysql-connector-java-5.1.41.tar1、解压连接器 connector 文件1.1、解压[root@localhost Softw...原创 2017-05-11 10:38:40 · 123 阅读 · 0 评论 -
Spark,Hive,HBase相互结合--数据读取和计算的几种方式
Spark与Hive可以相互结合,同时Spark也可以使用DataFrame读取HBase里的数据,Hive也同样可以直接读取HBase的数据。只不过在Spark和Hive读取HBase数据的时候,需要做列簇或列映射,对于列不确定的需要列簇映射。 几种数据读取和分析思路Hive on HBase做好表映射,然后使用Tez替换MR引擎,使用Hive做数据分析这是最基本的一种方式,对于...原创 2017-05-12 10:27:49 · 628 阅读 · 0 评论 -
Apache Spark探秘:Spark Shuffle实现
对于大数据计算框架而言,Shuffle阶段的设计优劣是决定性能好坏的关键因素之一。本文将介绍目前Spark的shuffle实现,并将之与MapReduce进行简单对比。本文的介绍顺序是:shuffle基本概念,MapReduce Shuffle发展史以及Spark Shuffle发展史。 (1) shuffle基本概念与常见实现方式shuffle,是一个算子,表达的是多对多的依赖关...原创 2017-06-06 17:10:26 · 84 阅读 · 0 评论 -
Hadoop项目实战-用户行为分析之分析与设计
Hadoop项目实战-用户行为分析之分析与设计http://www.cnblogs.com/smartloli/p/4569882.html 1.概述 本课程的视频教程地址:《用户行为分析之分析与设计》 下面开始本教程的学习,本教程以用户行为分析案例为基础,带着大家对项目的各个指标做详细的分析,对项目的整体设计做合理的规划,让大家能通过本课程 掌握Hadoop项目的分析与...原创 2016-03-23 10:12:54 · 194 阅读 · 0 评论 -
Oozie 快速入门
oozie概述:oozie能干什么oozie格式:怎么用oozieoozie执行:怎么运行oozie oozie概述:oozie是基于hadoop的调度器,以xml的形式写调度流程,可以调度mr,pig,hive,shell,jar等等。主要的功能有Workflow: 顺序执行流程节点,支持fork(分支多个节点),join(合并多个节点为一个)Coordina...原创 2017-06-19 16:45:55 · 99 阅读 · 0 评论 -
hadoop mr 流程图
hadoop 流程图 mapreduce运行机制,这些按照时间顺序包括:输入分片(input split)、map阶段、combiner阶段、shuffle阶段和reduce阶段原创 2015-10-05 21:31:56 · 263 阅读 · 0 评论 -
mapreduce运行机制
谈mapreduce运行机制,可以从很多不同的角度来描述,比如说从mapreduce运行流程来讲解,也可以从计算模型的逻辑流程来进行讲解,也许有些深入理解了mapreduce运行机制还会从更好的角度来描述,但是将mapreduce运行机制有些东西是避免不了的,就是一个个参入的实例对象,一个就是计算模型的逻辑定义阶段,我这里讲解不从什么流程出发,就从这些一个个牵涉的对象,不管是物理实体还是逻辑实体...原创 2015-10-05 21:10:51 · 117 阅读 · 0 评论 -
hadoop 流程 细节详解
通过WourdCount程序示例:详细讲解MapReduce之Block+Split+Shuffle+Map+Reduce的区别及数据处理流程。 Shuffle过程是MapReduce的核心,集中了MR过程最关键的部分。要想了解MR,Shuffle是必须要理解的。了解Shuffle的过程,更有利于我们在对MapReduce job性能调优的工作有帮助,以及进一步加深我们队MR内部机理的了...原创 2015-10-05 18:39:03 · 115 阅读 · 0 评论 -
Hadoop集群(第8期)_HDFS
1、HDFS简介 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了...原创 2014-02-28 11:21:47 · 121 阅读 · 0 评论 -
Hbase快速开始——shell操作
一. 介绍 HBase是一个分布式的、面向列的 开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。 HBase以表的形式...原创 2016-04-15 18:28:39 · 93 阅读 · 0 评论 -
Hbase原理、基本概念、基本架构
概述HBase是一个构建在HDFS上的分布式列存储系统;HBase是基于Google BigTable模型开发的,典型的key/value系统;HBase是Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储;从逻辑上讲,HBase将数据按照表、行和列进行存储。与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储...原创 2016-04-16 10:00:46 · 96 阅读 · 0 评论 -
HBase 原理、设计与优化实践
1、HBase 简介 HBase —— Hadoop Database的简称,Google BigTable的另一种开源实现方式,从问世之初,就为了解决用大量廉价的机器高速存取海量数据、实现数据分布式存储提供可靠的方案。从功能上来 讲,HBase不折不扣是一个数据库,与我们熟悉的Oracle、MySQL、MSSQL等一样,对外提供数据的存储和读取服务。而从应用的角度来 说,HBase与一...原创 2016-04-16 10:03:31 · 124 阅读 · 0 评论 -
base0.96.0单机模式安装(win7 无需cygwin)
1. 环境: Win7 64bit JDK1.6.0_43 64bit hbase-0.96.0-hadoop1 没错,不需要cygwin。 比较新的hbase版本已经原生支持windows了,至少支持单机模式了。 2. 下载 hbase0.20.5之后的所有版本可以在这里找到。 0.20.5之前的版本是和在hadoop工程并在一起的,可以在这里找到。 我下载的是hbase-0.96.0-ha...原创 2016-04-16 10:28:27 · 100 阅读 · 0 评论 -
Windows7+Eclipse环境下Hbase Java客户端的开发
构建Hbase集群,请参考: Centos 下Hbase0.98.10-hadoop2 集群的配置 在Eclipse中创建Maven的工程将集群的hbase-site.xml文件放到工程的classes目录下 配置操作系统的 C:\windows\system32\drivers\etc文件,将Hbase集群的IP以及域名配置到该文件中192.168....原创 2016-04-16 10:29:22 · 113 阅读 · 0 评论 -
Mesos和YARN的区别以及它们如何协同工作
Hadoop 2.0之后把对集群资源的管理从MapReduce v1的JobTracker中提取出来,在YARN中进行了实现。虽然YARN支持了多种不同的计算框架,但依旧没有很好的解决集群资源的弹性伸缩问题。本文介绍了一个新的项目- Myriad,它把YARN和Mesos两者的优势结合起来,不仅使YARN的运行使用更加灵活,而且让整个数据中心的扩容变得更简单。这是一个关于两个集群的故事。第...原创 2016-05-05 10:08:11 · 235 阅读 · 0 评论 -
hadoopDB 数据仓库 简介
读了两篇关于hadoopDB数据仓库的论文之后,写一点关于hadoopDB的简介: hadoopDB是耶鲁大学的一个大学项目, 目的是为了构建一个数据仓库的工具。HadoopDB 结合了hadoop 和paralled RDBMS,结合两个技术的优点。HadoopDB is to connect multiple single_node database systemusing ...原创 2016-05-26 21:34:38 · 197 阅读 · 0 评论 -
HBase入门基础教程 HBase之单机模式与伪分布式模式安装
在本篇文章中,我们将介绍Hbase的单机模式安装与伪分布式的安装方式,以及通过浏览器查看Hbase的用户界面。搭建HBase伪分布式环境的前提是我们已经搭建好了Hadoop完全分布式环境,搭建Hadoop环境请参考:【Hadoop入门基础教程】4、Hadoop之完全分布式环境搭建开发环境硬件环境:CentOS 6.5 服务器4台(一台为Master节点,三台为Slave节点) 软件环境...原创 2015-08-05 00:58:12 · 132 阅读 · 0 评论 -
HDFS工作原理
HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。HDFS有很多特点: ① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。 ② 运行在廉价的机器上。(商用机) ③ ...原创 2015-09-08 00:26:58 · 75 阅读 · 0 评论 -
大数据架构师:hadoop、Storm该选哪一个
首先整体认识:Hadoop是磁盘级计算,进行计算时,数据在磁盘上,需要读写磁盘;Storm是内存级计算,数据直接通过网络导入内存。读写内存比读写磁盘速度快n个数量级。根据Harvard CS61课件,磁盘访问延迟约为内存访问延迟的75000倍。所以Storm更快。注释:1. 延时 , 指数据从产生到运算产生结果的时间,“快”应该主要指这个。2. 吞吐, 指系统单位时间处理的数据量。storm的...原创 2015-09-14 00:15:41 · 74 阅读 · 0 评论 -
MR作业的提交监控、输入输出控制及特性使用
提交作业并监控JobClient是用户作业与JobTracker交互的主要接口,它提供了提交作业,跟踪作业进度、访问任务报告及logs、以及获取MR集群状态信息等方法。提交作业流程包括:检查作业的输入输出计算作业的输入分片(InputSplit)如果需要,为DistributedCache设置必须的账户信息将作业用到的jar包文件和配置信息拷贝至文件系统(一般为HDF...原创 2015-09-14 00:16:10 · 300 阅读 · 0 评论 -
Hadoop分析tomcat访问日志
今天照着《hadoop实战》写了个小例子,解析tomcat日志统计各个浏览器的访问次数 Java代码 package com.ice.stat; import java.io.IOException; import java.util.regex.Matcher; import java.util.regex.Pattern; ...原创 2015-09-14 00:16:44 · 166 阅读 · 0 评论 -
自定义 hadoop MapReduce InputFormat 切分输入文件
在上一篇中,我们实现了按 cookieId 和 time 进行二次排序,现在又有新问题:假如我需要按 cookieId 和 cookieId&time 的组合进行分析呢?此时最好的办法是自定义 InputFormat,让 mapreduce 一次读取一个 cookieId 下的所有记录,然后再按 time 进行切分 session,逻辑伪码如下:for OneSplit in My...原创 2015-09-14 00:17:34 · 106 阅读 · 0 评论 -
WordCount运行详解
1、MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。 在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是JobTracke...原创 2015-09-14 00:18:02 · 97 阅读 · 0 评论 -
hadoop storm 区别
http://www.zhihu.com/question/20098507 最主要的方面:Hadoop使用磁盘作为中间交换的介质,而storm的数据是一直在内存中流转的。 两者面向的领域也不完全相同,一个是批量处理,基于任务调度的;另外一个是实时处理,基于流。 以水为例,Hadoop可以看作是纯净水,一桶桶地搬;而Storm是用水管,预先接好(Topology),然后打开水龙头,水就源源不断...原创 2015-09-16 00:14:49 · 99 阅读 · 0 评论 -
Apache Hadoop与第三方Hadoop-CDH,HDP,MapR的分析与比较
一、Hadoop版本综述 目前Hadoop发行版非常多,有华为发行版、Intel发行版、Cloudera发行版(CDH)等,所有这些发行版均是基于Apache Hadoop衍生出来的,之所以有这么多的版本,完全是由Apache Hadoop的开源协议决定的:任何人可以对其进行修改,并作为开源或商业产品发布/销售。(http://www.apache.org/licenses/LICEN...原创 2017-11-13 09:39:12 · 419 阅读 · 1 评论