- 博客(4)
- 资源 (4)
- 收藏
- 关注
原创 【Hadoop/Hbase】centos上安装并设置Snappy/LZO压缩方式
在hadoop和hbase文件传输可以在压缩之后在进行传输,这样就可以在传输的时候减少传输数据,增大I/O和带宽效率。在hadoop中主要提供了三种压缩方式Gzip、LZO、Snappy三种数据压缩。后面两种需要额外的配置和安装依赖。但是,在hadoop中默认都已经实现接口。
2013-07-30 18:46:23 8446
原创 【数据结构】Trie树的相关介绍与实现
Trie树是前缀树,通常使用在字符串检索,经典使用场景是在搜索提示中对用户搜索词的提示。可以参考wiki
2013-07-28 15:01:11 1478
原创 【Hadoop】中map与reduce的个数问题
在hadoop中当一个任务没有设置的时候,该任务的执行的map的个数是由任务本身的数据量决定的,具体计算方法会在下文说明;而reduce的个数hadoop是默认设置为1的。为何设置为1那,因为一个任务的输出的文件个数是由reduce的个数来决定的。一般一个任务的结果默认是输出到一个文件中,所以reduce的数目设置为1。那如果我们为了提高任务的执行速度如何对map与reduce的个数来进行调整那。
2013-07-22 15:34:38 10834
原创 【算法】各大公司笔试题目之数组相关笔试题
给定只包含正数的数组,给出一个方法,将数组中的数拼接起来,得到的数,是最大的。 例如: [4, 94, 9, 14, 1] 拼接之后,所得最大数为:9944141思路其实很简单,就是按照数的大小排序,大的排到高位,小的排到低位,这个时候最后的结果肯定是最大的。但是,当遇到位数不同的时候就需要稍微额外处理一下。比如上述数组中的9,94两个数字,那谁应该排在前面那。遇到这种情况就使用虚拟填充的做法
2013-07-20 05:44:54 1882
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人