hadoop
文章平均质量分 79
xiaotom5
这个作者很懒,什么都没留下…
展开
-
Ubuntu下搭建Hadoop开发环境
大家好,最近对Hadoop非常感兴趣,今天花点工夫搭建一个开发环境,并整理成文。首先要了解一下Hadoop的运转形式:单机形式(standalone) 单机形式是Hadoop的默许形式。现在次解压Hadoop的源码包时,Hadoop无奈了解硬件安装环境,便激进地抉择了最小配置。在这种默许形式下所有3个XML文件均为空。当配置文件为空时,Hadoop会齐全运转在当地。由于不需原创 2012-10-17 11:34:44 · 12883 阅读 · 6 评论 -
NoSQL 在腾讯应用实践
吴悦,腾讯大讲堂特约讲师,腾讯T4技术专家。先后参与腾讯分布式文件系统(TFS),K-V存储,SQL集群,接入网关(TGW)的设计与研发。见证了腾讯NoSQL从07年诞生,08、09批量应用,10年至今应用于腾讯开放平台让更多的第三方开发者使用;关注于构建具有低成本、高性能、高可用,可扩展,易运营特点的互联网海量后台服务。目前任腾讯架构平台部平台开发中心技术总监。此文已发表在《程序员》杂志转载 2012-11-04 19:13:35 · 881 阅读 · 0 评论 -
为什么Hadoop将一定会是分布式计算的未来
前言:很久没有写写博客了,之前主要是换工作,耽误了很多的时间,让人也变得懒散,不想花大时间来写东西。另外就是也确实没有什么自己都觉得有意思的东西拿来写写,对一般的知识什么的,我比较倾向于往evernote上面记笔记。不过最近对于Hadoop看得比较多,对它的发展也比较关心,最近了解得越多,也就越相信Hadoop的未来,这里写一篇文章与大家分享分享,为什么我相信Hadoop一定是分布式计算的转载 2012-11-04 19:14:44 · 906 阅读 · 0 评论 -
Hadoop 实战之Streaming(三)
Google曾经有一道非常经典的面试题:给你一个长度为N的链表。N很大,但你不知道N有多大。你的任务是从这N个元素中随机取出k个元素。你只能遍历这个链表一次。你的算法必须保证取出的元素恰好有k个,且它们是完全随机的(出现概率均等)?这道题的解法非常多,网上讨论也非常热烈。本文要讨论的是,这个问题是从何而来,有什么实用价值?自从有了Hadoop之后,该问题便有了新的应用载体。随着数据原创 2012-10-20 08:17:32 · 3828 阅读 · 0 评论 -
Hadoop 实战之Streaming(二)
Streaming简介 Streaming框架允许任何程序语言实现的程序在Hadoop MapReduce中使用,方便已有程序向Hadoop平台移植。因此可以说对于hadoop的扩展性意义重大,今天简单说一下。 Streaming的原理是用Java实现一个包装用户程序的MapReduce程序,该程序负责调用MapReduce Java接口获取key/value对输入,创原创 2012-10-20 08:12:15 · 3710 阅读 · 0 评论 -
Hadoop 实战之Streaming(十一)
ValueHistogram是aggregate package中最强大的类,基于每个键,对其value做以下统计1)唯一值个数2)最小值个数3)中位置个数4)最大值个数5)平均值个数6)标准方差环境:Vmware 8.0 和ubuntu11.04Hadoop 实战之Streaming(十)---通过Aggregate包使用Streaming第一步: 首原创 2012-10-21 15:39:46 · 3191 阅读 · 0 评论 -
Hadoop 实战之Streaming(九)
大家好,今天给大家介绍一下Hadoop提供的一个软件包aggregate1. aggregate概述aggregate是Hadoop提供的一个软件包,其用来做一些通用的计算和聚合。Generally speaking, in order to implement an application using Map/Reduce model, the developer needs t原创 2012-10-21 15:38:24 · 3420 阅读 · 0 评论 -
Hadoop 实战之分析专利引用数据集(三)
大家好,今天我们在Hadoop 实战之分析专利引用数据集(一)的基础上来实现计算专利被引用的次数许多外行人认为统计学就是数量统计,并且许多基本的Hadoop Job就是用于统计数量的。我们已经在第一章中看过统计单词个数的例子了。对于那些专利引用数据,我们可能想要知道专利被引用的次数。这也是一种数量统计。我们期望得到如下形式的结果:1 2 10000 1 100000 1原创 2012-10-19 09:15:52 · 6471 阅读 · 0 评论 -
Hadoop 实战之运行CitationHistogram
大家好,今天我们在Hadoop 实战之分析专利引用数据集(一)和Hadoop 实战之分析专利引用数据集(三)的基础上来实现计算不同引用次数专利的数目环境:Vmware 8.0 和Ubuntu11.04Hadoop 实战之运行CitationHistogram---计算不同引用次数专利的数目第一步:首先创建一个工程命名为HadoopTest.目录结构如下图:第二步: 在/原创 2012-10-19 09:23:56 · 5342 阅读 · 2 评论 -
Hadoop Map/Reduce教程
目的这篇教程从用户的角度出发,全面地介绍了Hadoop Map/Reduce框架的各个方面。先决条件请先确认Hadoop被正确安装、配置和正常运行中。更多信息见:· Hadoop快速入门对初次使用者。 · Hadoop集群搭建对大规模分布式集群。 概述Hadoop Map/Reduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集转载 2012-10-26 17:13:31 · 696 阅读 · 0 评论 -
Hadoop集群搭建
目的本文描述了如何安装、配置和管理有实际意义的Hadoop集群,其规模可从几个节点的小集群到几千个节点的超大集群。如果你希望在单机上安装Hadoop玩玩,从这里能找到相关细节。先决条件1. 确保在你集群中的每个节点上都安装了所有必需软件。2. 获取Hadoop软件包。安装安装Hadoop集群通常要将安装软件解压到集群内的所有机器上。通常,集群里的一台机器被指定为 N转载 2012-10-26 17:14:36 · 578 阅读 · 0 评论 -
hadoop平台运行python代码
原文地址:http://blog.csdn.net/luanwpp/article/details/7542588 在这个实例中,我将会向大家介绍如何使用Python 为 Hadoop编写一个简单的MapReduce程序。尽管Hadoop 框架是使用Java编写的但是我们仍然需要使用像C++、Python等语言来实现Hadoop程序。尽管Hadoop官方网站给的示例程序是使用Jython编转载 2012-10-26 17:17:20 · 938 阅读 · 0 评论 -
Hadoop中shuffle阶段流程分析
宏观上,Hadoop每个作业要经历两个阶段:Map phase和reduce phase。对于Map phase,又主要包含四个子阶段:从磁盘上读数据-》执行map函数-》combine结果-》将结果写到本地磁盘上;对于reduce phase,同样包含四个子阶段:从各个map task上读相应的数据(shuffle)-》sort-》执行reduce函数-》将结果写到HDFS中。Hadoop处转载 2012-10-26 17:19:40 · 1228 阅读 · 0 评论 -
Hadoop Hive与Hbase整合
一、简介Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive与HBase的整合功能的实现是利用两者本身对外的API转载 2012-11-04 19:10:24 · 620 阅读 · 0 评论 -
Hadoop必将风靡2012年的六个理由
毫无疑问,Hadoop已经赢得了大量投资者和IT媒体的青睐,但却很少看到任何的实际产出。即将过去的2011是风暴来袭前的准备阶段,为很多新公司新用户建立了一个海量数据的分析平台。就连微软这样的互联网巨头都已放弃其他平台而选择Hadoop,看来Hadoop风暴来袭已指日可待。2012年,Hadoop必将风靡世界。以下是六个具体的理由:1.投资者看好Hadoop目前,投资者十分看好Hado转载 2012-11-04 19:08:27 · 607 阅读 · 0 评论 -
Hadoop运行流程分析
1. 概述Hadoop MapReduce基于“分而治之”的思想,将计算任务抽象成map和reduce两个计算过程,计算流程如下:map过程包括:1). 从磁盘读入数据2). 运行map任务3). 写结果到磁盘reduce过程包括:1). shuffle&sort2). 运行reduce任务3). 写结果到磁盘2. 分析在map的第三个阶段,map任转载 2012-10-26 17:19:04 · 627 阅读 · 0 评论 -
Ubuntu下eclipse开发hadoop应用程序环境配置
大家好,今天给大家介绍一下Ubuntu下eclipse开发hadoop应用程序环境配置,目的很简单,为进行研究与学习,部署一个hadoop运行环境,并搭建一个hadoop开发与测试环境。环境:Vmware 8.0 和Ubuntu11.04第一步:下载eclipse-SDK-4.2.1-linux-gtk.tar.gzhttp://mirrors.ustc.edu.cn/eclips原创 2012-10-17 11:35:49 · 16598 阅读 · 3 评论 -
Google Dremel 原理 - 如何能3秒分析1PB
原链:http://www.yankay.com/google-dremel-rationale/简介Dremel 是Google 的“交互式”数据分析系统。可以组建成规模上千的集群,处理PB级别的数据。MapReduce处理一个数据,需要分钟级的时间。作为MapReduce的发起人,Google开发了Dremel将处理时间缩短到秒级,作为MapReduce的有力补转载 2012-11-05 11:31:02 · 856 阅读 · 0 评论 -
Hadoop面试题
Q1. Name the most common InputFormats defined in Hadoop? Which one is default ?Following 2 are most common InputFormats defined in Hadoop - TextInputFormat- KeyValueInputFormat- SequenceFile转载 2012-11-05 11:29:15 · 960 阅读 · 0 评论 -
Google后Hadoop时代的新“三驾马车”——Caffeine、Pregel、Dremel
http://www.csdn.net/article/2012-08-21/2808870摘要:Google在2003年到2004年公布了关于GFS、MapReduce和BigTable三篇技术论文,这也成为后来云计算发展的重要基石,如今Google在后Hadoop时代的新“三驾马车”——Caffeine、Pregel、Dremel再一次影响着全球大数据技术的发展潮流。转载 2012-11-05 11:22:28 · 713 阅读 · 0 评论 -
hadoop常用的命令大全
cat使用方法:hadoop fs -cat URI [URI …]将路径指定文件的内容输出chgrp使用方法:hadoop fs -chgrp [-R] GROUP URI [URI …]改变文件所属的组。使用-R将使改变在目录结构下递归进行。chmod使用方法:hadoop fs -chmod [-R] URI [URI …]改变文件的权限。使用-R将使改变在转载 2012-11-05 11:21:47 · 929 阅读 · 0 评论 -
Hadoop Streaming 实战: aggregate
1. aggregate概述aggregate是Hadoop提供的一个软件包,其用来做一些通用的计算和聚合。Generally speaking, in order to implement an application using Map/Reduce model, the developer needs to implement Map and Reduce functions (an转载 2012-10-26 17:18:13 · 675 阅读 · 0 评论 -
轻松使用Hadoop RPC
Hadoop RPC是Hadoop的一个重要部分,提供分布式环境下的对象调用功能,源码在org.apache.hadoop.ipc中。而HBase也几乎完全copy了这部分的源码,只是在配置项上面有所改动。关于Hadoop RPC的机制分析和源码解读,网上已经有许多资料,一搜一大把,这里就不在描述了。本文通过一个小例子,介绍如何调用Hadoop RPC。1.应用场景Ha转载 2012-11-03 01:06:25 · 756 阅读 · 0 评论 -
十道海量数据处理面试题与十个方法大总结
第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最转载 2012-11-04 19:06:53 · 678 阅读 · 0 评论 -
谷歌三大核心技术(三)Google_BigTable中文版
谷歌三大核心技术(三)Google_BigTable中文版Bigtable:一个分布式的结构化数据存储系统译者:alex摘要Bigtable是一个分布式的结构化数据存储系统,它被设计用来处理海量数据:通常是分布在数千台普通服务器上的PB级的数据。Google的很多项目使用Bigtable存储数据,包括Web索引、Google Earth、Google F转载 2012-11-03 01:12:21 · 2794 阅读 · 0 评论 -
Hadoop 实战之运行PutMerge
大家好,今天给大家介绍一下Hadoop的文件系统HDFS,HDFS是一种文件系统,存储着Hadoop应用将要处理的数据,类似于普通的Unix和linux文件系统,不同的是他是实现了google的GFS文件系统的思想,是适用于大规模分布式数据处理相关应用的、可扩展的分布式文件系统。它有以下优点:1、在分布式存储中,经常会出现节点失效的情况,HDFS可以持续监视,错误检查,容错处理,自动恢复;原创 2012-10-17 11:38:28 · 11697 阅读 · 0 评论 -
Hadoop 实战之单词计数WordCount
大家好,今天给大家介绍Hadoop版的"Hello World" WordCount,单词计数是最简单也是最能体现MapReduce思想的程序之一,可以称为MapReduce版"Hello World",该程序的完整代码可以在Hadoop安装包的"src/examples"目录下找到。单词计数主要完成功能是:统计一系列文本文件中每个单词出现的次数环境:Vmware 8.0 和Ubuntu11.原创 2012-10-15 21:59:28 · 11125 阅读 · 0 评论 -
Hadoop 实战之分析专利引用数据集(二)
大家好,今天给大家介绍一下Mapreduce新旧API的改变,并用新的Api的实现了Hadoop 实战之分析专利引用数据集(一)中计算专利引用数据并排序同样的功能Hadoop最新版本的MapReduce Release 0.20.0的API包括了一个全新的Mapreduce JAVA API,有时候也称为上下文对象。 新的API类型上不兼容以前的API,所以,以前的应用程序需要重写才原创 2012-10-19 09:12:34 · 6660 阅读 · 2 评论 -
Hadoop 实战之运行MultiFile(二)
环境:Vmware 8.0 和ubuntu11.04Hadoop 实战之运行MultiFile(二)---将输入数据的不同列提取为不同文件的程序第一步:首先创建一个工程命名为HadoopTest.目录结构如下图:第二步: 在/home/tanglg1987目录下新建一个start.sh脚本文件,每次启动虚拟机都要删除/tmp目录下的全部文件,重新格式化namenode,代码如下:原创 2012-10-23 09:01:48 · 1979 阅读 · 0 评论 -
Hadoop 实战之Streaming(十二)
环境:Vmware 8.0 和ubuntu11.04Hadoop 实战之Streaming(十二)---通过脚本使用Streaming第一步: 首先在/home/tanglg1987目录下新建一个start.sh脚本文件,每次启动虚拟机都要删除/tmp目录下的全部文件,重新格式化namenode,代码如下:sudo rm -rf /tmp/*rm -rf /home/tanglg1原创 2012-10-21 16:04:57 · 3278 阅读 · 0 评论 -
Hadoop 实战之运行MultiFile(一)
环境:Vmware 8.0 和ubuntu11.04Hadoop 实战之运行MultiFile(一)---根据国家将专利元数据分割到多个目录中第一步:首先创建一个工程命名为HadoopTest.目录结构如下图:第二步: 在/home/tanglg1987目录下新建一个start.sh脚本文件,每次启动虚拟机都要删除/tmp目录下的全部文件,重新格式化namenode,代码如下:原创 2012-10-23 09:01:25 · 1962 阅读 · 0 评论 -
Hadoop 实战之Streaming(七)
环境:Vmware 8.0 和ubuntu11.04Hadoop 实战之Streaming(七)---通过脚本使用Streaming第一步: 首先在/home/tanglg1987目录下新建一个start.sh脚本文件,每次启动虚拟机都要删除/tmp目录下的全部文件,重新格式化namenode,代码如下:sudo rm -rf /tmp/*rm -rf /home/tanglg198原创 2012-10-20 22:48:49 · 3373 阅读 · 0 评论 -
Hadoop 实战之Streaming(六)
环境:Vmware 8.0 和ubuntu11.04Hadoop 实战之Streaming(六)---通过脚本使用Streaming第一步: 首先在/home/tanglg1987目录下新建一个start.sh脚本文件,每次启动虚拟机都要删除/tmp目录下的全部文件,重新格式化namenode,代码如下:sudo rm -rf /tmp/*rm -rf /home/tanglg19原创 2012-10-20 22:43:53 · 3828 阅读 · 0 评论 -
Hadoop 实战之Streaming(十)
环境:Vmware 8.0 和ubuntu11.04Hadoop 实战之Streaming(十)---通过Aggregate包使用Streaming第一步: 首先在/home/tanglg1987目录下新建一个start.sh脚本文件,每次启动虚拟机都要删除/tmp目录下的全部文件,重新格式化namenode,代码如下:sudo rm -rf /tmp/*rm -rf /home/原创 2012-10-21 15:39:43 · 3138 阅读 · 0 评论 -
Hadoop 实战之Streaming(八)
环境:Vmware 8.0 和ubuntu11.04Hadoop 实战之Streaming(八)---通过脚本使用Streaming第一步: 首先在/home/tanglg1987目录下新建一个start.sh脚本文件,每次启动虚拟机都要删除/tmp目录下的全部文件,重新格式化namenode,代码如下:sudo rm -rf /tmp/*rm -rf /home/tanglg19原创 2012-10-20 22:51:12 · 3390 阅读 · 0 评论 -
Hadoop 实战之运行AveragingWithCombiner(一)
环境:Vmware 8.0 和ubuntu11.04Hadoop 实战之运行AveragingWithCombiner---使用combiner提升性能第一步:首先创建一个工程命名为HadoopTest.目录结构如下图:第二步: 在/home/tanglg1987目录下新建一个start.sh脚本文件,每次启动虚拟机都要删除/tmp目录下的全部文件,重新格式化namenod原创 2012-10-17 11:37:24 · 10415 阅读 · 0 评论 -
Hadoop 实战之MapReduce链接作业之预处理
环境:Vmware 8.0 和Ubuntu11.04Hadoop 实战之MapReduce链接作业之预处理第一步:首先创建一个工程命名为HadoopTest.目录结构如下图:第二步: 在/home/tanglg1987目录下新建一个start.sh脚本文件,每次启动虚拟机都要删除/tmp目录下的全部文件,重新格式化namenode,代码如下:sudo r原创 2012-10-17 21:14:15 · 8820 阅读 · 6 评论 -
Hadoop 实战之运行DistributedCacheJoin
大家好,今天给大家介绍一下DistributedCache,Reduce-side join比较灵活但效率不高,因为在数据在reduce端才作join,在网络中需要shuffle所有数据,而且在join时又丢掉很多无用的数据。如果能在map端执行join则会有较高的效率,但map不容易同时获得需要作join的多个记录。在实际的应用中,需要作join的数据源可能一个很大一个比较小,如果此小数据源小到原创 2012-10-23 09:02:18 · 1881 阅读 · 0 评论 -
Hadoop 实战之运行DataJoin
大家好,今天给大家介绍一下DataJoin,Hadoop有一个叫DataJoin的包为Data Join提供相应的框架。它的Jar包存在于contrib/datajoin/hadoop-*-datajoin。为区别于其他的data join技术,我们称其为reduce-side join。(因为我们在reducer上作大多数的工作)reduce-side join引入了一些术语及概念:原创 2012-10-17 11:39:20 · 11247 阅读 · 1 评论 -
Hadoop 实战之分析专利引用数据集(一)
大家好,今天给大家介绍一下如何建立MapReduce程序的基本模板MapReduce程序与您所学过的编程模型有所不同。您需要花一些时间,并进行一些练习来熟悉它。为了帮助您精通它,我们在后面几章会通过多个例子来进行练习。这些例子描述了不同的MapReduce编程技术。通过用不同方式应用MapReduce,您可以开始培养一种直觉,并养成“用MapReduce思考(thinking in MapRe原创 2012-10-18 13:00:57 · 11064 阅读 · 0 评论