hadoop的terasort排序总结

hadoop传统的排序是各个map任务对每个数据块进行局部排序,然后由一个reduce任务对所有数据进行全局排序,这样虽然map的并行度高,但reduce的单行化操作却是排序的瓶颈,terasort排序利用trie树(词典查找树)的相关性质,让reduce任务同样并行化大大提高了大数据的排序效率。

    (1)trie树介绍

     Trie,是一种树形结构,是一种根节点不包含字符,除根节点外每一个节点都只包含一个字符; 从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串; 每个节点的所有子节点包含的字符都不相同。哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希表高。

    根节点不包含字符,除根节点外每一个节点都只包含一个字符; 从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串; 每个节点的所有子节点包含的字符都不相同。

用trie树排序原理:采用数组的方式创建字典树,这棵树的每个结点的所有儿子很显然地按照其字母大小排序。对这棵树进行先序遍历即可

(2)terasort排序原理

Terasort排序要经过:采样->map对数据记录做标记(标识出所属的reduce编号)-》各个reduce局部排序,再顺序输出。

a、 采样

由jobclient对源数据进行全局采样,抽取部分数据然后排序,按reduce的个数对排序的数据进行分割,并将分割点暂存于分布式缓存中。

 b、每个map从缓存中读取出分割点,以数组形式建立trie树,并按先根遍历标记出每条记录所属的reduce编号,此过程结束后,每个split将被map task分成r个块,并且第i块总是比第i+1块大。

c、每个reduce进行局部排序后,顺序输出即为最终的排序结果。

例子参照:http://dongxicheng.org/mapreduce/hadoop-terasort-analyse/

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值