hadoop的terasort排序总结

最新推荐文章于 2022-04-27 08:42:01 发布

zcc_0015

最新推荐文章于 2022-04-27 08:42:01 发布

阅读量3.5k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zcc_0015/article/details/16924405

版权

hadoop传统的排序是各个map任务对每个数据块进行局部排序，然后由一个reduce任务对所有数据进行全局排序，这样虽然map的并行度高，但reduce的单行化操作却是排序的瓶颈，terasort排序利用trie树(词典查找树)的相关性质，让reduce任务同样并行化大大提高了大数据的排序效率。

（1）trie树介绍

Trie树，是一种树形结构，是一种根节点不包含字符，除根节点外每一个节点都只包含一个字符；从根节点到某一节点，路径上经过的字符连接起来，为该节点对应的字符串；每个节点的所有子节点包含的字符都不相同。哈希树的变种。典型应用是用于统计，排序和保存大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较，查询效率比哈希表高。

根节点不包含字符，除根节点外每一个节点都只包含一个字符；从根节点到某一节点，路径上经过的字符连接起来，为该节点对应的字符串；每个节点的所有子节点包含的字符都不相同。

用trie树排序原理：采用数组的方式创建字典树，这棵树的每个结点的所有儿子很显然地按照其字母大小排序。对这棵树进行先序遍历即可

（2）terasort排序原理

Terasort排序要经过：采样->map对数据记录做标记（标识出所属的reduce编号）-》各个reduce局部排序，再顺序输出。

a、采样

由jobclient对源数据进行全局采样，抽取部分数据然后排序，按reduce的个数对排序的数据进行分割，并将分割点暂存于分布式缓存中。

b、每个map从缓存中读取出分割点，以数组形式建立trie树，并按先根遍历标记出每条记录所属的reduce编号，此过程结束后，每个split将被map task分成r个块，并且第i块总是比第i+1块大。

c、每个reduce进行局部排序后，顺序输出即为最终的排序结果。

例子参照：http://dongxicheng.org/mapreduce/hadoop-terasort-analyse/

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
hadoop的terasort排序总结

hadoop传统的排序是各个map任务对每个数据块进行局部排序，然后由一个reduce任务对所有数据进行全局排序，这样虽然map的并行度高，但reduce的单行化操作却是排序的瓶颈，terasort排序利用trie树(词典查找树)的相关性质，让reduce任务同样并行化大大提高了大数据的排序效率。（1）trie树介绍 Trie树，是一种树形结构，是一种根节点不包含字符，
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。