Hadoop Streaming实战
Hadoop Streaming使用实例,供正在学习的朋友参考,欢迎交流探讨
yfk
这个作者很懒,什么都没留下…
展开
-
Hadoop socket测试
概要:hadoop上以streaming方式运行map任务,map任务为socke client端,和在外部系统运行的server交互代码:server.cpp#include #include #include #include #include #include #include #include #include #include #include原创 2011-11-01 14:35:05 · 3353 阅读 · 0 评论 -
Hadoop Streaming: c++编写uniq程序
1. 描述使用Hadoop streaming对输入数据的第一列进行uniq去重计算,采用c++编写map-reduce程序。2. mapper程序mapper.cpp#include #include using namespace std;#define BUFFER_SIZE 102400#define DELIM "\t"int main(int arg原创 2011-10-20 17:10:28 · 4918 阅读 · 3 评论 -
Hadoop Streaming 实战: bash脚本
streaming支持使用脚本作为map、reduce程序。以下介绍一个实现分布式的计算所有文件的总行数的程序 1. 待检索的数据放入hdfs $ hadoop fs -put localfile /user/hadoop/hadoopfile 2. 编写map、reduce脚本,记得给脚本加可执行权限。 mapper.sh #!/bin/sh wc –l reducer.sh #!/bin/sh sum原创 2011-05-05 11:59:00 · 8130 阅读 · 9 评论 -
Hadoop Streaming 实战: grep
streaming支持shell 命令的使用。但是,需要注意的是,对于多个命令,不能使用形如cat; grep 之类的多命令,而需要使用脚本,后面将具体介绍。 下面示例用grep检索巨量数据: 1. 待检索的数据放入hdfs $ hadoop fs -put localfile /user/hadoop/hadoopfile 使用方法:hadoop fs -put ... 从本地文件系统中复制单个或多个源路径到目标原创 2011-05-05 10:17:00 · 10084 阅读 · 0 评论 -
Hadoop客户端环境配置
1. 安装客户端(通过端用户可以方便的和集群交互)2. 修改客户端~/.bashrcalias hadoop='/home/work/hadoop/client/hadoop-client/hadoop/bin/hadoop' #hadoop 可执行文件位置alias hls='hadoop fs -ls' alias hlsr='hadoop fs -lsr' alias hcp='hadoop fs -cp ' alias hmv='hadoop fs -mv' alias hget原创 2011-05-03 22:06:00 · 8566 阅读 · 0 评论 -
Hadoop MapReduce
Hadoop MapReduce是一个用于处理海量数据的分布式计算框架。这个框架解决了诸如数据分布式存储、作业调度、容错、机器间通信等复杂问题,可以使没有并行处理或者分布式计算经验的工程师,也能很轻松地写出结构简单的、应用于成百上千台机器处理大规模数据的并行分布式程序。 Hadoop MapReduce基于“分而治之”的思想,将计算任务抽象成map和reduce两个计算过程,可以简单理解为“分散运算—归并结果”的过程。一个MapReduce程序首先会把输入数据分割成不相关的若干键/值对(key1/valu原创 2011-05-03 16:53:00 · 3420 阅读 · 0 评论 -
Map-Reduce简介
MapReduce是一种编程模型,始于:Dean, Jeffrey & Ghemawat, Sanjay (2004). "MapReduce: Simplified Data Processing on Large Clusters"。主要应用于大规模数据集的并行运算。其将并行计算简化为Map和reduce过程,极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。程原创 2011-05-03 16:11:00 · 3417 阅读 · 0 评论