![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
yaoyepeng
学生
展开
-
Hadoop备忘
Hadoop简介Hadoop 由 Apache Software Foundation 公司于 2005 年秋天作为 Lucene 的子项目 Nutch 的一部分正式引入。它受到最先由 Google Lab 开发的 MapReduce 和 Google File System 的启发。2006 年 3 月份,MapReduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。Hadoop 是最受欢迎的在 Internet 上对搜索关键字进原创 2010-09-26 19:30:00 · 1904 阅读 · 0 评论 -
用Python来写MapReduce的实际应用程序
<br />用Python来写分布式的程序。这样速度快。便于调试,更有实际意义。MapReduce适合于对文本文件的处理及数据挖掘用:<br /> 在每台机器上:<br />su - hadoop<br />wget http://www.python.org/ftp/python/3.0.1/Python-3.0.1.tar.bz2<br />tar jxvf Python-3.0.1.tar.bz2<br />cd Python-3.0.1<br />./configure --prefix=/h转载 2010-10-09 13:56:00 · 8429 阅读 · 0 评论 -
Hadoop学习资料、博客及网站汇总
Hadoop学习资料 -- 这里面总结了很多的东西,值得一一细看http://cloud21.javaeye.com/blog/607175 关于Hadoop的两本书 -- 有电子书下载http://caibinbupt.javaeye.com/blog/418846 JavaEye Hadoop圈子 -- 圈子中的Hadoop资源篇很不错http://hadoop.group.javaeye.com/ 豆瓣hadoop小组http://www.douban.com/group/156966/ 推荐Clou原创 2010-10-09 13:29:00 · 7526 阅读 · 0 评论 -
在Ubuntu9.10环境下的Hadoop分布式模式的部署
Linux下的Hadoop--分布式模式的部署 选用软件版本:1. jdk 1.6.0.102. hadoop-0.19.11. 准备Host环境和配置ssh主节点IP是192.168.1.247,子节点1是192.168.1.36,修改两个节点的/etc/hosts文件:# /etc/hosts (for master AND slave)192.168.1.247 master192.168.1.36 slave分别在两台机器上添加用户hadoop①在master上:groupadd -g 2000转载 2010-10-09 13:59:00 · 2333 阅读 · 0 评论 -
c++&&python实现Hadoop Streaming的partitioner和模块化
<br />Hadoop Streaming 是一个工具, 代替编写Java的实现类,而利用可执行程序来完成map-reduce过程<br /><br />工作流程 : <br /><br />InputFile --> mappers --> [Partitioner] --> reducers --> outputFiles<br /><br />理解 : <br />1 输入文件,可以是指定远程文件系统内的文件夹下的 *<br />2 通过集群自己分解到各个PC上,每个mapper是一个可执行文件,相转载 2010-10-14 11:27:00 · 3064 阅读 · 0 评论 -
Hadoop中的数据库访问
Hadoop主要用来对非结构化或半结构化(HBase)数据进行存储和分析,而结构化的数据则一般使用数据库来进行存储和访问。本文的主要内容则是讲述如何将Hadoop与现有的数据库结合起来,在Hadoop应用程序中访问数据库中的文件。1.DBInputFormatDBInputFormat是Hadoop从0.19.0开始支持的一种输入格式,包含在包org.apache.hadoop.mapred.lib.db中,主要用来与现有的数据库系统进行交互,包括MySQL、PostgreSQL、Oracle等几个数据库系转载 2010-10-29 13:18:00 · 4085 阅读 · 1 评论 -
Hadoop示例程序WordCount详解
<br />package com.felix; import java.io.IOException; import java.util.Iterator; import java.util.StringTokenizer; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable;转载 2010-10-29 13:23:00 · 2062 阅读 · 0 评论 -
Hadoop学习资料及网站汇总
Hadoop学习资料 -- 这里面总结了很多的东西,值得一一细看http://cloud21.iteye.com/blog/607175关于Hadoop的两本书 -- 有电子书下载http://caibinbupt.iteye.com/blog/418846JavaEye Hadoop圈子 -- 圈子中的Hadoop资源篇很不错http://hadoop.group.iteye.c...原创 2010-10-06 20:27:31 · 269 阅读 · 0 评论