云计算
文章平均质量分 82
Sunrise0929
这个作者很懒,什么都没留下…
展开
-
MapReduce链接不同来源的数据
在关系型数据库中 join是非常常见的操作,各种优化手段已经到了极致。在海量数据的环境下,不可避免的也会碰到这种类型的需求,例如在数据分析时需要连接从不同的数据源中获取到的数据。不同于传统的单机模式,在分布式存储的下采用MapReduce 编程模型,也有相应的处理措施和优化方法。Reduce sidejoin Hadoop中MapReduce中的主要过程依次是读取数据分块,map原创 2013-08-13 10:58:45 · 639 阅读 · 0 评论 -
MapReduce与遗传算法、MapReduce与粒子群算法结合与实现
遗传算法(大白话解析遗传算法):http://www.cnblogs.com/heaad/archive/2010/12/23/1914725.htmlJava代码用遗传算法解决0-1背包:http://wenku.baidu.com/view/20beb6da6f1aff00bed51ea8.html 一、MapReduce和遗传算法结合:(参考文献:MapReduce-GA-eSci原创 2013-08-13 10:58:05 · 2995 阅读 · 4 评论 -
HDFS上文件处理、Java文件读写
使用Java api实现文档的上传/下载/删除文件:1 上传文件到HDFS有时需要自动将文件上传到HDFS上,在java中可以通过如下函数实现:public static boolean put2HDFS(String src , String dst ,Configuration conf){ Path dstPath = new Path(dst) ;原创 2013-08-13 10:58:41 · 478 阅读 · 0 评论 -
MapReduce中二次排序
MR自带的源码SecondarySort,即二次排序。二次排序可以实现类似下例功能:计算每年的最高气温。如果key设置为气温,value设置为年份及其他信息,那么我们不必遍历他们以找到最大值,只需获取每年的第一个值而忽略其他。但这不是最有效的解决问题的方法,考虑将key变成复合的,即年份和气温,先按年份升序,再按气温降序。但是这样不能保证同一年的记录去同一个reducer,需要设置partitio原创 2013-08-13 10:58:43 · 484 阅读 · 0 评论 -
ubuntu12.04下Hadoop单机版、集群搭建以及Hadoop常用指令
搭建Hadoop单机版:http://www.linuxidc.com/Linux/2013-01/78112.htm搭建Hadoop集群:http://www.linuxidc.com/Linux/2013-01/78113.htmLinux的inode上网配置:http://wenku.baidu.com/view/e4f7fb38376baf1ffc4fad3e.html登录sl原创 2013-08-13 10:58:21 · 490 阅读 · 0 评论