xiaotom5-CSDN博客

原创 Hadoop 实战之运行DistributedCacheJoin

大家好，今天给大家介绍一下DistributedCache，Reduce-side join比较灵活但效率不高，因为在数据在reduce端才作join，在网络中需要shuffle所有数据，而且在join时又丢掉很多无用的数据。如果能在map端执行join则会有较高的效率，但map不容易同时获得需要作join的多个记录。在实际的应用中，需要作join的数据源可能一个很大一个比较小，如果此小数据源小到

2012-10-23 09:02:18 1877

原创 Hadoop 实战之运行MultiFile（二）

环境：Vmware 8.0 和ubuntu11.04Hadoop 实战之运行MultiFile（二）---将输入数据的不同列提取为不同文件的程序第一步：首先创建一个工程命名为HadoopTest.目录结构如下图:第二步: 在/home/tanglg1987目录下新建一个start.sh脚本文件，每次启动虚拟机都要删除/tmp目录下的全部文件，重新格式化namenode，代码如下：

2012-10-23 09:01:48 1976

原创 Hadoop 实战之运行MultiFile（一）

环境：Vmware 8.0 和ubuntu11.04Hadoop 实战之运行MultiFile（一）---根据国家将专利元数据分割到多个目录中第一步：首先创建一个工程命名为HadoopTest.目录结构如下图:第二步: 在/home/tanglg1987目录下新建一个start.sh脚本文件，每次启动虚拟机都要删除/tmp目录下的全部文件，重新格式化namenode，代码如下：

2012-10-23 09:01:25 1957

原创 Hadoop 实战之Streaming（十二）

环境：Vmware 8.0 和ubuntu11.04Hadoop 实战之Streaming（十二）---通过脚本使用Streaming第一步: 首先在/home/tanglg1987目录下新建一个start.sh脚本文件，每次启动虚拟机都要删除/tmp目录下的全部文件，重新格式化namenode，代码如下：sudo rm -rf /tmp/*rm -rf /home/tanglg1

2012-10-21 16:04:57 3275

原创 Hadoop 实战之Streaming（十一）

ValueHistogram是aggregate package中最强大的类，基于每个键，对其value做以下统计1）唯一值个数2）最小值个数3）中位置个数4）最大值个数5）平均值个数6）标准方差环境：Vmware 8.0 和ubuntu11.04Hadoop 实战之Streaming（十）---通过Aggregate包使用Streaming第一步: 首

2012-10-21 15:39:46 3189

原创 Hadoop 实战之Streaming（十）

环境：Vmware 8.0 和ubuntu11.04Hadoop 实战之Streaming（十）---通过Aggregate包使用Streaming第一步: 首先在/home/tanglg1987目录下新建一个start.sh脚本文件，每次启动虚拟机都要删除/tmp目录下的全部文件，重新格式化namenode，代码如下：sudo rm -rf /tmp/*rm -rf /home/

2012-10-21 15:39:43 3136

原创 Hadoop 实战之Streaming（九）

大家好，今天给大家介绍一下Hadoop提供的一个软件包aggregate1. aggregate概述aggregate是Hadoop提供的一个软件包，其用来做一些通用的计算和聚合。Generally speaking, in order to implement an application using Map/Reduce model, the developer needs t

2012-10-21 15:38:24 3418

原创 Hadoop 实战之Streaming（八）

环境：Vmware 8.0 和ubuntu11.04Hadoop 实战之Streaming（八）---通过脚本使用Streaming第一步: 首先在/home/tanglg1987目录下新建一个start.sh脚本文件，每次启动虚拟机都要删除/tmp目录下的全部文件，重新格式化namenode，代码如下：sudo rm -rf /tmp/*rm -rf /home/tanglg19

2012-10-20 22:51:12 3387

原创 Hadoop 实战之Streaming（七）

环境：Vmware 8.0 和ubuntu11.04Hadoop 实战之Streaming（七）---通过脚本使用Streaming第一步: 首先在/home/tanglg1987目录下新建一个start.sh脚本文件，每次启动虚拟机都要删除/tmp目录下的全部文件，重新格式化namenode，代码如下：sudo rm -rf /tmp/*rm -rf /home/tanglg198

2012-10-20 22:48:49 3370

原创 Hadoop 实战之Streaming（六）

环境：Vmware 8.0 和ubuntu11.04Hadoop 实战之Streaming（六）---通过脚本使用Streaming第一步: 首先在/home/tanglg1987目录下新建一个start.sh脚本文件，每次启动虚拟机都要删除/tmp目录下的全部文件，重新格式化namenode，代码如下：sudo rm -rf /tmp/*rm -rf /home/tanglg19

2012-10-20 22:43:53 3822

原创 Hadoop 实战之Streaming（五）

Hadoop的Python语言封装Hadoop使用Java语言实现，编写具体的应用业务除了借助Hadoop的Java API外，还可以使用开发者所熟悉的Python或C++等其他语言编码。在Hadoop安装路径的/src/examples/目录中，给出了Python实现的分布式应用示例。除了将Python代码通过Jython运行时转换为jar包部署，还可借助Hadoop Strea

2012-10-20 22:42:35 3882

原创 Hadoop 实战之Streaming（四）

Hadoop本身是Java写的，所以，给hadoop写mapreduce，人们会自然地想到java但hadoop里面有个contrib叫做hadoop streaming，这是一个小工具，为hadoop提供streaming支持，使得任何支持标准IO (stdin, stdout)的可执行程序都能成为hadoop的mapper或者reducer例如：hadoop jar hadoo

2012-10-20 22:42:09 3701

原创 Hadoop 实战之Streaming（三）

Google曾经有一道非常经典的面试题：给你一个长度为N的链表。N很大，但你不知道N有多大。你的任务是从这N个元素中随机取出k个元素。你只能遍历这个链表一次。你的算法必须保证取出的元素恰好有k个，且它们是完全随机的（出现概率均等）？这道题的解法非常多，网上讨论也非常热烈。本文要讨论的是，这个问题是从何而来，有什么实用价值？自从有了Hadoop之后，该问题便有了新的应用载体。随着数据

2012-10-20 08:17:32 3824

原创 Hadoop 实战之Streaming（二）

Streaming简介 Streaming框架允许任何程序语言实现的程序在Hadoop MapReduce中使用，方便已有程序向Hadoop平台移植。因此可以说对于hadoop的扩展性意义重大，今天简单说一下。 Streaming的原理是用Java实现一个包装用户程序的MapReduce程序，该程序负责调用MapReduce Java接口获取key/value对输入，创

2012-10-20 08:12:15 3708

原创 Hadoop 实战之Streaming（一）

Hadoop 的Streaming1、概述Hadoop Streaming是Hadoop提供的一个编程工具，它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer，例如：采用shell脚本语言中的一些命令作为mapper和reducer（cat作为mapper，wc作为reducer）$HADOOP_HOME/bin/hadoop jar $HADOOP_H

2012-10-20 07:55:31 6047

原创 Hadoop 实战之运行AveragingWithCombiner（二）

环境：Vmware 8.0 和ubuntu11.04Hadoop 实战之运行AveragingWithCombiner---使用计数器统计缺失值个数的MapClass第一步：首先创建一个工程命名为HadoopTest.目录结构如下图:第二步: 在/home/tanglg1987目录下新建一个start.sh脚本文件，每次启动虚拟机都要删除/tmp目录下的全部文件，重新格式化

2012-10-20 07:43:14 3264

原创 Hadoop 实战之使用RegexMapper

大家好，今天给大家介绍一下Hadoop一些有用的Mapper实现IdentityMapper: 实现了Mapper 将输入直接映射为输出InverseMapper:实现了Mapper 逆置key/value对RegexMapper: 实现了Mapper,对匹配的项生成(match,1)对TokenCount: 实现了Mapper,生成(token,1)对为了便于大家更好地理

2012-10-19 10:01:18 5300

原创 Hadoop 实战之运行CitationHistogram

大家好，今天我们在Hadoop 实战之分析专利引用数据集（一）和Hadoop 实战之分析专利引用数据集（三）的基础上来实现计算不同引用次数专利的数目环境：Vmware 8.0 和Ubuntu11.04Hadoop 实战之运行CitationHistogram---计算不同引用次数专利的数目第一步：首先创建一个工程命名为HadoopTest.目录结构如下图:第二步: 在/

2012-10-19 09:23:56 5340 2

原创 Hadoop 实战之分析专利引用数据集（三）

大家好，今天我们在Hadoop 实战之分析专利引用数据集（一）的基础上来实现计算专利被引用的次数许多外行人认为统计学就是数量统计，并且许多基本的Hadoop Job就是用于统计数量的。我们已经在第一章中看过统计单词个数的例子了。对于那些专利引用数据，我们可能想要知道专利被引用的次数。这也是一种数量统计。我们期望得到如下形式的结果：1 2 10000 1 100000 1

2012-10-19 09:15:52 6467

原创 Hadoop 实战之分析专利引用数据集（二）

大家好，今天给大家介绍一下Mapreduce新旧API的改变，并用新的Api的实现了Hadoop 实战之分析专利引用数据集（一）中计算专利引用数据并排序同样的功能Hadoop最新版本的MapReduce Release 0.20.0的API包括了一个全新的Mapreduce JAVA API，有时候也称为上下文对象。　　新的API类型上不兼容以前的API，所以，以前的应用程序需要重写才

2012-10-19 09:12:34 6651 2

原创 Hadoop 实战之分析专利引用数据集（一）

大家好，今天给大家介绍一下如何建立MapReduce程序的基本模板MapReduce程序与您所学过的编程模型有所不同。您需要花一些时间，并进行一些练习来熟悉它。为了帮助您精通它，我们在后面几章会通过多个例子来进行练习。这些例子描述了不同的MapReduce编程技术。通过用不同方式应用MapReduce，您可以开始培养一种直觉，并养成“用MapReduce思考(thinking in MapRe

2012-10-18 13:00:57 11059

原创 Hadoop 实战之MapReduce链接作业之预处理

环境：Vmware 8.0 和Ubuntu11.04Hadoop 实战之MapReduce链接作业之预处理第一步：首先创建一个工程命名为HadoopTest.目录结构如下图:第二步: 在/home/tanglg1987目录下新建一个start.sh脚本文件，每次启动虚拟机都要删除/tmp目录下的全部文件，重新格式化namenode，代码如下：sudo r

2012-10-17 21:14:15 8818 6

原创 Hadoop 实战之运行DataJoin

大家好，今天给大家介绍一下DataJoin，Hadoop有一个叫DataJoin的包为Data Join提供相应的框架。它的Jar包存在于contrib/datajoin/hadoop-*-datajoin。为区别于其他的data join技术，我们称其为reduce-side join。（因为我们在reducer上作大多数的工作）reduce-side join引入了一些术语及概念：

2012-10-17 11:39:20 11243 1

原创 Hadoop 实战之运行PutMerge

大家好，今天给大家介绍一下Hadoop的文件系统HDFS，HDFS是一种文件系统，存储着Hadoop应用将要处理的数据，类似于普通的Unix和linux文件系统，不同的是他是实现了google的GFS文件系统的思想，是适用于大规模分布式数据处理相关应用的、可扩展的分布式文件系统。它有以下优点：1、在分布式存储中，经常会出现节点失效的情况，HDFS可以持续监视，错误检查，容错处理，自动恢复；

2012-10-17 11:38:28 11692

原创 Hadoop 实战之运行AveragingWithCombiner（一）

环境：Vmware 8.0 和ubuntu11.04Hadoop 实战之运行AveragingWithCombiner---使用combiner提升性能第一步：首先创建一个工程命名为HadoopTest.目录结构如下图:第二步: 在/home/tanglg1987目录下新建一个start.sh脚本文件，每次启动虚拟机都要删除/tmp目录下的全部文件，重新格式化namenod

2012-10-17 11:37:24 10412

原创 Ubuntu下eclipse开发hadoop应用程序环境配置

大家好，今天给大家介绍一下Ubuntu下eclipse开发hadoop应用程序环境配置，目的很简单，为进行研究与学习，部署一个hadoop运行环境，并搭建一个hadoop开发与测试环境。环境：Vmware 8.0 和Ubuntu11.04第一步：下载eclipse-SDK-4.2.1-linux-gtk.tar.gzhttp://mirrors.ustc.edu.cn/eclips

2012-10-17 11:35:49 16595 3

原创 Ubuntu下搭建Hadoop开发环境

大家好，最近对Hadoop非常感兴趣，今天花点工夫搭建一个开发环境，并整理成文。首先要了解一下Hadoop的运转形式：单机形式（standalone）单机形式是Hadoop的默许形式。现在次解压Hadoop的源码包时，Hadoop无奈了解硬件安装环境，便激进地抉择了最小配置。在这种默许形式下所有3个XML文件均为空。当配置文件为空时，Hadoop会齐全运转在当地。由于不需

2012-10-17 11:34:44 12881 6

原创 Hadoop 实战之单词计数WordCount

大家好，今天给大家介绍Hadoop版的"Hello World" WordCount，单词计数是最简单也是最能体现MapReduce思想的程序之一，可以称为MapReduce版"Hello World"，该程序的完整代码可以在Hadoop安装包的"src/examples"目录下找到。单词计数主要完成功能是：统计一系列文本文件中每个单词出现的次数环境：Vmware 8.0 和Ubuntu11.

2012-10-15 21:59:28 11124

转载 netbeans下调试j2me,出现提示要tomcat的manager权限的用户名和密码问题解决位置

netbeans下调试j2me,出现提示要tomcat的manager权限的用户名和密码问题解决位置解决方法：修改tomcat-users.xml中设置１．netbeans绑定的tomcat的改用户名和密码位置：有两处有tomcat-users.xml，不修改netbeans安装目录里面的tomcat中的，，而是修改在C:/Documents and Settings/Administra

2012-12-12 22:37:52 1969

转载 AWT编程

Java使用AWT和Swing类完成图形用户界面编程，事件处理负责让程序可以响应用户的动作。当使用AWT来编写图形界面应用时，程序仅指定了界面组件的位置和行为，并未提供真正的实现，JVM调用操作系统本地的图形界面来创建和平台一致的对等体。AWT编程中有两个基类：1）Component：代表一个能以图形化方式显示出来，并可与用户交互的对象2）MenuComponent：代表了图形界面的

2012-12-04 21:42:24 3348

转载 Swing编程

1. GUI：图形用户界面。它是Java提供的一种图形用户界面编程方式。AWT：抽象窗口工具集，是Sun公司在Java 1.0版本中提供一种最原始的图形界面类库。图形的元素委托给操作系统平台。不同的操作系统平台下，图形元素的属性和行为会有差别。平台移植性很差。Swing：Java SE 后来的版本中，在AWT的基础上重新提供了一套新的国形界面类库。图形的元素全部用Java语

2012-12-04 21:42:00 2120

转载 WIN7远程桌面连接方法

WIN7远程桌面连接方法！首先，我们要在被连接的计算机上进行设置。使用鼠标右键单击“计算机”图标，选择“属性”在打开的“系统”窗口点击“远程设置”，在弹出的系统属性中的的“远程”选项窗口中选择“允许运行任意版本远程桌面的计算机连接”下一步，我们进入“控制面板”选择“用户账户和家庭安全”，给这台需要被登录的计算机设置账户密码小提示：被登录的计算机都要需要设置账户密码才

2012-11-26 17:57:45 2654

转载 VMware 8安装苹果操作系统Mac OS X 10.7 Lion正式版

VMware 8安装苹果操作系统Mac OS X 10.7 Lion正式版今天介绍下VM8下安装Mac OS X 10.71、工具篇下载Vmware Workstation 8.0正式版http://115.com/file/bhyk1l2u#Vmware8.0 汉化包http://115.com/file/dn38a7eu#（因为我的电脑要经常上网银什么的

2012-11-25 17:28:39 2433

转载 VMware 8安装Mac OS X 10.7 Lion正式版

Vmware 8.0终于出来了，不但支持Windows 8还能支持Mac OS X 10.7（Lion），真是强大无比啊！下面就介绍一下VMware 8完美安装Mac Lion正式版教程。1、下载Vmware Workstation 8.0正式版、下载Mac OS X 安装包、下载Mac引导工具、系统驱动。下载：Vmware Workstation 8.0正式版下载：下载Mac

2012-11-25 16:46:44 2058

转载从一个男人身上看出他的修养和抱负

整天关注娱乐版的男人，你指望它有什么成就？整天玩游戏的男人、整体打麻将的男人，你指望它有什么成就么？不管喜不喜欢，这样的东西都是值得一读。一、拥有自信和风度男人到了二十几岁后，就要开始学着用心去经营自己了，它体现在自己的思想与涵养上。自信是一个男人最重要的品质，自信的男人就你像一只在暴风雨中战斗的海鸥。海鸥所要说的只有一句话“让暴风雨来的再猛烈些吧”，只因为它无所畏惧。一个自信的男人，总

2012-11-19 12:45:44 1756

转载 MyEclipse8.5安装svn

不知道MyEclipse从哪个版本开始增加了Software and Workspace center，其实反而不好用了，安装个svn看似不需要我再填site了，但实际上根本就安装不了。把传统的Software update调出来，输入了svn的site，结果告诉我和当前版本不匹配，出现这个错误：—– Current configuration problems —– Resulting conf

2012-11-19 09:40:32 1926

转载 Eclipse安装SVN插件方式简明介绍

在学习SVN的过程中，你有可能会遇到Eclipse安装SVN插件问题，在这里我们简单介绍一下Eclipse安装SVN插件的方式，希望对你有用。本节和大家一起学习一下Eclipse安装SVN插件方式，主要从三个方面来讲解，在这里和大家分享一下，希望大家通过本节的介绍对Eclipse安装SVN插件有一定的认识。下面是具体介绍。一、Links安装：※▲推荐使用此种安装方式，因为它便于插

2012-11-19 09:26:44 1772

转载 putty简介

putty简介　　Putty 　　随着Linux在服务器端应用的普及，Linux系统管理越来越依赖于远程。在各种远程登录工具中，Putty是出色的工具之一。　　Putty是一个免费的、Windows 32平台下的telnet、rlogin和ssh客户端，但是功能丝毫不逊色于商业的telnet类工具。　　用它来远程管理Linux十分好用，其主要优点如下：　　◆ 完

2012-11-15 15:37:30 2213

转载 linux服务常用命令

1.查看进程:ps -ef|grep 某个文件下的进程dzyx2.杀死进程 kill -9 进程号3.查看文件使用:tail -f 文件名a.txt/vi 文件名4.启到某个文件:./nohup.sh5.删除某个文件:rm -r* 某个文件夹删除文件夹：rm -rf 文件夹6.将文件按照时间排序:$date7.将文件排序:ll8.从一个用户跳转到另一个用户使用:su

2012-11-15 15:35:20 1762

转载 Ubuntu 12.04安装QQ2012

Ubuntu 12.04安装QQ2012,下载后请根据自己的机器类型，按照下面的32位或64位安装说明安装新版本更新说明：1.qq版本升级到官方最新qq2012Beta12.点击密码框不会崩溃3.不会自动离线4.支持全局热键（比如：Ctrl+Alt+A截图）5.语音视频接受正常，本地视频无法使用6.文件传输大小正常已知问题：1.窗口放到桌面边缘无法自动隐藏。

2012-11-15 10:15:40 2047

空空如也

空空如也