![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
xiaoqixiaodong
这个作者很懒,什么都没留下…
展开
-
hadoop体系结构介绍
1、hadoop是适合大数据的分布式存储和计算的平台,适合处理大数据,处理小数据会慢。2、hadoop(apache版本)核心是HDFS和MapReduce。hdfs分布式文件系统:主从式架构,一个主节点namenode,从节点多个datanodenamenode1、负责接收用户操作请求(对外)2、维护文件系统目录结构(对内)3、管理文件和block块之间关系、block与原创 2014-06-27 11:03:51 · 1364 阅读 · 0 评论 -
Hadoop集群(第6期)_WordCount运行详解
Hadoop集群(第6期)_WordCount运行详解 1、MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。 在Hadoop转载 2014-07-21 16:36:37 · 432 阅读 · 0 评论 -
Hadoop集群(第7期)_Eclipse开发环境设置
Hadoop集群(第7期)_Eclipse开发环境设置1、Hadoop开发环境简介1.1 Hadoop集群简介 Java版本:jdk-6u31-linux-i586.bin Linux系统:CentOS6.0 Hadoop版本:hadoop-1.0.0.tar.gz 1.2 Windows开发简介 Java版本:jdk-6u31-windows-转载 2014-07-21 16:37:42 · 309 阅读 · 0 评论 -
mapreduce二次排序
package sort;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.hadoop.conf.Configuratio原创 2014-06-30 11:06:55 · 451 阅读 · 0 评论 -
hadoop介绍
[+]云平台hadoop基础信息hadoop概念hadoop优点hadoop集群 hadoop应用 MapReduce云平台hadoop子项目MapReduceMapReduce基础概念MapReduce简单样例MapReduce横向扩展 MapReduce气象实例C MapReduce工作流云平台hadoop子项目HDFS云平台hadoop子项目PIG云平台had转载 2014-05-29 14:41:55 · 1508 阅读 · 1 评论 -
hadoop伪分布模式安装步骤
1、在win7系统下按在vmware,并为其原创 2014-06-16 15:02:50 · 734 阅读 · 0 评论 -
hbase和hive的区别
Hive是为了简化编写MapReduce程序而生的,使用MapReduce做过数据分析的人都知道,很多分析程序除业务逻辑不同外,程序流程基本一样。在这种情况下,就需要Hive这样的用戶编程接口。Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive中的表纯逻辑,就是些表的定义等,也就是表的元数据。使用SQL实现Hive是因为SQL大家都熟悉,转换成本低,类似作用的Pi转载 2014-07-15 17:41:46 · 872 阅读 · 0 评论 -
Hadoop 中的两表join
作为数据分析中经常进行的join 操作,传统DBMS 数据库已经将各种算法优化到了极致,而对于hadoop 使用的mapreduce 所进行的join 操作,去年开始也是有各种不同的算法论文出现,讨论各种算法的适用场景和取舍条件,本文讨论hive 中出现的几种join 优化,然后讨论其他算法实现,希望能给使用hadoop 做数据分析的开发人员提供一点帮助. Facebook转载 2014-08-21 15:14:32 · 437 阅读 · 0 评论 -
hadoop调优
这里主要针对Mapreduce的性能调优。这一两个月在做mapreduce的性能调优,有些心得,还是要记下来的,以郷后人~这里主要涉及的参数包括:HDFS:dfs.block.sizeMapredure:io.sort.mbio.sort.spill.percentmapred.local.dirmapred.map.tasks & mapred.tasktracker.m转载 2014-08-21 16:09:12 · 405 阅读 · 0 评论 -
Hadoop调优
Hadoop调优mapred.tasktracker.map.tasks.maximum 官方解释:The maximum number of map tasks that will be run simultaneously by a task tracker. 我的理解:一个tasktracker最多可以同时运行的map任务数量 默认值转载 2014-08-21 16:29:52 · 466 阅读 · 0 评论 -
hadoop shuffle过程
Shuffle描述着数据从map task输出到reduce task输入的这段过程。 个人理解:map执行的结果会保存为本地的一个文件中:只要map执行 完成,内存中的map数据就一定会保存到本地文件,保存这个文件有个过程 叫做spilll(溢写),如果需要对map的执行结果做 combine 也是在这个时候(溢写执行的时候,写入磁盘之前)做的转载 2014-08-21 15:17:10 · 1797 阅读 · 0 评论 -
Hadoop读写文件时内部工作机制
读文件 读文件时内部工作机制参看下图: 客户端通过调用FileSystem对象(对应于HDFS文件系统,调用DistributedFileSystem对象)的open()方法来打开文件(也即图中的第一步),DistributedFileSystem通过RPC(Remote Procedure Call)调用询问NameNode来得到此文件最开始几个block的文件位置(第二步)。对每一个bl转载 2014-08-21 15:38:53 · 372 阅读 · 0 评论 -
hadoop 性能调优 重要参数设置技巧
这里主要针对Mapreduce的性能调优。这一两个月在做mapreduce的性能调优,有些心得,还是要记下来的,以郷后人~这里主要涉及的参数包括:HDFS:dfs.block.sizeMapredure:io.sort.mbio.sort.spill.percentmapred.local.dirmapred.map.tasks & mapred转载 2014-09-10 11:42:25 · 500 阅读 · 0 评论 -
Hadoop集群(第5期副刊)_JDK和SSH无密码配置
Hadoop集群(第5期副刊)_JDK和SSH无密码配置 1、Linux配置java环境变量 1.1 原文出处 地址:http://blog.csdn.net/jiedushi/article/details/6672894 1.2 解压安装jdk 在shell终端下进入jdk-6u14-linux-i586.bin文件所在目录,执行命令 .转载 2014-07-21 16:34:41 · 347 阅读 · 0 评论 -
Hadoop集群(第5期)_Hadoop安装配置
Hadoop集群(第5期)_Hadoop安装配置 1、集群部署介绍 1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供转载 2014-07-21 16:25:26 · 763 阅读 · 0 评论 -
HDFS体系结构
1、什么是分布式文件系统?分布式文件系统:当数据量越来越多,在一台机器上已经不能处理,那么就要分配到更多的机器上,但是不方便管理和维护,所以需要一种管理系统来管理多个机器上的文件。分布式文件系统允许文件通过网络在多台主机上分享文件,可以让多机器上的用户分享文件和存储空间,让用户感觉像是在访问一台机器。hdfs是分布式文件系统的一种,不适合小文件,适用于一次写多次读的情况,不支持原创 2014-06-27 14:52:10 · 553 阅读 · 0 评论 -
combiner操作
问:为什么使用Combiner? * 答:Combiner发生在Map端,对数据进行规约处理,数据量变小了,传送到reduce端的数据量变小了,传输时间变短,作业的整体时间变短。 * * 问:为什么Combiner不作为MR运行的标配,而是可选步骤哪? * 答:因为不是所有的算法都适合使用Combiner处理,例如求平均数。 * * 问:Combiner本身已经执行了re原创 2014-06-27 15:04:14 · 869 阅读 · 0 评论 -
hadoop之mapReduce
什么是Map/Reduce,看下面的各种解释:(1)MapReduce是hadoop的核心组件之一,hadoop要分布式包括两部分,一是分布式文件系统hdfs,一部是分布式计算框,就是mapreduce,缺一不可,也就是说,可以通过mapreduce很容易在hadoop平台上进行分布式的计算编程。(2)Mapreduce是一种编程模型,是一种编程方法,抽象理论。下面是一个关于一个程序员转载 2014-05-26 16:42:54 · 332 阅读 · 0 评论 -
partitioner编程
分区的例子必须打成jar运行用处: 1.根据业务需要,产生多个输出文件 2.多个reduce任务在运行,提高整体job的运行效率原创 2014-06-27 15:17:23 · 647 阅读 · 0 评论 -
Hadoop集群(第8期)_HDFS初探之旅
Hadoop集群(第8期)_HDFS初探之旅1、HDFS简介 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储转载 2014-07-21 16:15:56 · 402 阅读 · 0 评论 -
Hadoop集群(第2期)_机器信息分布表
Hadoop集群(第2期)_机器信息分布表1、分布式环境搭建 采用4台安装Linux环境的机器来构建一个小规模的分布式集群。图1 集群的架构 其中有一台机器是Master节点,即名称节点,另外三台是Slaver节点,即数据节点。这四台机器彼此间通过路由器相连,从而实验相互通信以及数据传输。它们都可以通过路由器访问Internet,实验网页文档的采集。转载 2014-07-21 16:24:42 · 362 阅读 · 0 评论 -
Hadoop集群(第3期)_VSFTP安装配置
Hadoop集群(第3期)_VSFTP安装配置 1、VSFTP简介 VSFTP是一个基于GPL发布的类Unix系统上使用的FTP服务器软件,它的全称是Very Secure FTP 从此名称可以看出来,编制者的初衷是代码的安全。 安全性是编写VSFTP的初衷,除了这与生俱来的安全特性以外,高速与高稳定性也是VSFTP的两个重要特点。 在速度方面,使用AS转载 2014-07-21 16:25:27 · 342 阅读 · 0 评论 -
Hadoop集群(第4期)_SecureCRT使用
Hadoop集群(第4期)_SecureCRT使用 1、SecureCRT简介 SecureCRT是一款支持SSH(SSH1和SSH2)的终端仿真程序,同时支持Telnet和rlogin协议。SecureCRT是一款用于连接运行包括Windows、UNIX和VMS的远程系统的理想工具。通过使用内含的VCP命令行程序可以进行加密文件的传输。有流行CRTTelnet转载 2014-07-21 16:27:05 · 392 阅读 · 0 评论 -
Hadoop集群(第5期)_Hadoop安装配置
Hadoop集群(第5期)_Hadoop安装配置 1、集群部署介绍 1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供转载 2014-07-21 16:28:16 · 674 阅读 · 0 评论 -
学习Hadoop不错的系列文章
学习Hadoop不错的系列文章1)Hadoop学习总结 (1)HDFS简介 (2)HDFS读写过程解析 (3)Map-Reduce入门 (4)Map-Reduce的过程解析 (5)Hadoop的运行痕迹 (6)Apache Hadoop 版本 2)Hadoop-0.20.0源代码分析 (1)Hadoop-0.20.0源代码分析(01转载 2014-07-21 16:47:25 · 479 阅读 · 0 评论 -
Hadoop集群(第1期)_CentOS安装配置
Hadoop集群(第1期)_CentOS安装配置 1、准备安装 1.1 系统简介 CentOS 是什么? CentOS是一个基于Red Hat企业级 Linux 提供的可自由使用的源代码企业级的 Linux 发行版本。每个版本的CentOS 都会获得七年的支持(通过安全更新方式)。新版本的CentOS 每两年发行一次,而每个版本的 C转载 2014-07-21 16:23:04 · 441 阅读 · 0 评论 -
flume-ng+Kafka+Storm+HDFS 实时系统搭建
【Twitter Storm系列】flume-ng+Kafka+Storm+HDFS 实时系统搭建一直以来都想接触Storm实时计算这块的东西,最近在群里看到上海一哥们罗宝写的Flume+Kafka+Storm的实时日志流系统的搭建文档,自己也跟着整了一遍,之前罗宝的文章中有一些要注意点没提到的,以后一些写错的点,在这边我会做修正;内容应该说绝大部分引用罗宝的文章的,这里要谢谢罗宝兄弟,还转载 2015-02-25 15:06:37 · 577 阅读 · 0 评论