Hadoop
文章平均质量分 82
Follow_Inner_Heart
蚂蚁,坚持,喜爱算法,关注大数据和智能家居。
展开
-
MapReduce Patterns, Algorithms, and Use Cases
目录(?)[-] Basic MapReduce Patterns Counting and Summing Applications Collating Applications Filtering Grepping Parsing and Validation Applications Distributed Task Execution Case S转载 2013-05-15 16:09:47 · 853 阅读 · 0 评论 -
Hadoop下join操作的几点优化意见
1. 概述 在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。 2. 常见的join方法介绍 假设要进行jo转载 2013-06-21 17:14:13 · 617 阅读 · 0 评论 -
Hadoop编程实战入门 实例
转自:http://blog.csdn.net/hguisu/article/details/7239390/ 转载请注明: Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样, MapReduce的run-ti转载 2013-07-17 10:39:29 · 1034 阅读 · 0 评论 -
HDFS的JavaAPI操作
转自:http://blog.csdn.net/xiaoping8411/article/details/7567106package hdfs; import static org.junit.Assert.fail; import java.util.Arrays; import org.apache.hadoop.conf.Configuration; import org.apach转载 2013-08-23 16:04:05 · 617 阅读 · 0 评论 -
SQL on Hadoop 其中常用工具简单介绍
摘要:SQL on Hadoop对于大数据而言非常重要。本文从技术架构和最新进展的角度分析了7种SQL on Hadoop产品的优缺点和适用范围:Hive、Tez/Stinger、Impala、Shark/Spark、Phoenix、 Hdapt/HadoopDB、Hawq/Greenplum。 编者按:大数据最大的魅力在于通过技术分析和挖掘带来新的商业价值。SQL on Hadoop是转载 2013-10-22 11:10:00 · 1399 阅读 · 0 评论 -
hadoop shuffle机制中针对中间数据的排序过程详解(源代码级)
转自:http://blog.csdn.net/riverm/article/details/6883606 在所有公开资料中,很少有对Hadoop 中间数据的sort过程进行详细介绍的。如果想要深入了解hadoop对中间数据的排序机制,只有通过阅读源代码才能达到。而hadoop的这段代码本身具有非常大的迷惑性,如果不注意细节,很容易会发生错误的理解。 本篇文章从原理上详细介绍了ha转载 2013-12-19 17:56:46 · 617 阅读 · 0 评论 -
源码级强力分析hadoop的RPC机制
源码级强力分析hadoop的RPC机制 前言: 这些天一直奔波于长沙和武汉之间,忙着腾讯的笔试、面试,以至于对hadoop RPC(Remote Procedure Call Protocol ,远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。可以参考:http://baike.baidu.com/view/32726.htm )机制分析的转载 2014-04-04 11:53:38 · 938 阅读 · 0 评论 -
hadoop中map和reduce的数量设置问题
map和reduce是hadoop的核心功能,hadoop正是通过多个map和reduce的并行运行来实现任务的分布式并行计算,从这个观点来看,如果将map和reduce的数量设置为1,那么用户的任务就没有并行执行,但是map和reduce的数量也不能过多,数量过多虽然可以提高任务并行度,但是太多的map和reduce也会导致整个hadoop框架因为过度的系统资源开销而使任务失败。所以用户在提交m转载 2014-04-09 10:31:34 · 651 阅读 · 0 评论