- 博客(11)
- 资源 (5)
- 收藏
- 关注
转载 利用MapReduce解决在海量数据中求Top K个数<转>
利用MapReduce求海量数据中最大的K个数 [java] view plaincopypackage jtlyuan.csdn; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache
2014-03-24 17:29:05 953
转载 Hive 中 Map Join 的适用场景:非等值连接<转>
最近开发中遇到几种应用,刚好使用MAPJOIN来解决实际的问题。应用共同点如下:1: 有一个极小的表行2: 需要做不等值join操作(a.x 这种操作如果直接使用join的话语法不支持不等于操作,hive语法解析会直接抛出错误如果把不等于写到where里会造成笛卡尔积,数据异常增大,速度会很慢。甚至会任务无法跑成功~根据mapjoin的计算原理,
2014-03-05 16:51:21 1677
转载 hive 非等值连接sql写法-2<转>
hive不支持非等值连接 join操作。如:select * from tonyjointest b join rtb_requests a on b.domain like a.domian%);但可以转化成这样:select * from tonyjointest b join rtb_requests a on (true) where b.do
2014-03-05 16:40:53 1584
转载 hive中间接实现不等值连接<转>
由于hive中不支持不等值连接,给应用带来不便。create tablelpx_test_a asselect id,class from (select 1 as id, 2 asclass from dualunion allselect 2 as id, 3 asclass from dualunion allselec
2014-03-05 16:07:03 1587
转载 字典树入门及实现(JAVA)<转>
Trie树,又称单词查找树或键树,是一种树形结构,是一种哈希树的变种。 典型应用是用于统计和排序大量的字符串(但不仅限于字符串), 所以经常被搜索引擎系统用于文本词频统计。它的优点是: 利用字符串的公共前缀来节约存储空间,最大限度的减少无谓的字符串比较,查询效率比哈希表高。 比如说我们想储存3个单词,sky、skyline、skymoon。如果只是单纯的按照以前的字符数组存
2014-03-04 17:14:24 1018
转载 Hadoop系列之Terasort<转>
TeraSort是Hadoop的测试中很有用的一个工具,但以前只是粗略的知道它的功能和用法,简单的用它做了几个测试用例。实际上,对于这种比较通用的工具,如果能够了解它更多一些的话,对于理解Hadoop是很有帮助的,同时也可以更好的利用它来帮助测试。最近有点时间,就了解了一些它的背景,代码实现原理等等,就先记录下来吧。1. Hadoop与Sort BenchmarksSortBenchm
2014-03-04 15:37:31 1235
转载 Hadoop 的 TotalOrderPartitioner<转>
http://blog.oddfoo.net/2011/04/17/mapreduce-partition%E5%88%86%E6%9E%90-2/ Partition所处的位置patition类结构1. Partitioner是partitioner的基类,如果需要定制partitioner也需要继承该类。2. HashPartitioner是mapr
2014-03-04 14:38:13 824
转载 MapReduce TotalOrderPartitioner 全局排序<转>
我们知道Mapreduce框架在feed数据给reducer之前会对map output key排序,这种排序机制保证了每一个reducer局部有序,Hadoop 默认的partitioner是HashPartitioner,它依赖于output key的hashcode,使得相同key会去相同reducer,但是不保证全局有序,如果想要获得全局排序结果(比如获取top N, bottom N
2014-03-04 14:01:46 646
转载 hive strict模式<转>
hive strict模式set hive.mapred.mode=nonstrict;set hive.mapred.mode=strict;hive> set hive.mapred.mode;hive.mapred.mode=nonstricthive> set hive.mapred.mode=strict;hive> select key, value fro
2014-03-04 13:48:51 3039
转载 hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法<转>
order byorder by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。set hive.mapred.mode=nonstrict; (default value / 默认值)set hive.mapred.mode=strict; order b
2014-03-04 13:44:12 539
转载 Hive体系结构<转>
本文整理自阿里数据平台的官方博客:http://www.alidata.org/archives/category/cloud-computing/hive 1、Hive架构与基本组成 下面是Hive的架构图。图1.1 Hive体系结构 Hive的体系结构可以分为以下几部分: (1)用户接口主要有三个:CLI,Clie
2014-03-04 13:28:57 1041
clementine的中文教程
2013-11-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人