- 博客(2)
- 收藏
- 关注
原创 Hadoop分布式文件系统
Hadoop有一个被称为HDFS的分布式系统,全称为Hadoop Distributed FileSystem。HDFS是为以流式数据访问模式(一次写入,多次读取)存储超大文件(指几百MB,几百GB甚至几百TB大小的文件)而设计的文件系统,在商用硬件(在各种零售店都可以买到的普通硬件)的集群上运行。HDFS不适用的领域: ①低延迟数据访问(HDFS是为达到高数据吞吐量而优化的,这有可能会以延迟为代...
2012-03-08 15:49:06
106
原创 利用mapreduce求最大值
实现功能:随机生成10000个数字置于文件VInput中,利用mapreduce找出其中的最大值。我们需要三样东西:一个map函数,一个reduce函数,一些来运行作业的代码。求最大值实例的Mapper接口:import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.io.LongWr...
2012-03-08 15:46:46
1913
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人