2014年03月_yongjian_luo

12月 11月 10月 09月 08月 07月 06月 05月 03月 02月 01月

转载利用MapReduce解决在海量数据中求Top K个数<转>

利用MapReduce求海量数据中最大的K个数 [java] view plaincopypackage jtlyuan.csdn; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache

2014-03-24 17:29:05 953

转载 Hive 中 Map Join 的适用场景：非等值连接<转>

最近开发中遇到几种应用，刚好使用MAPJOIN来解决实际的问题。应用共同点如下：1: 有一个极小的表行2: 需要做不等值join操作（a.x 这种操作如果直接使用join的话语法不支持不等于操作，hive语法解析会直接抛出错误如果把不等于写到where里会造成笛卡尔积，数据异常增大，速度会很慢。甚至会任务无法跑成功~根据mapjoin的计算原理，

2014-03-05 16:51:21 1677

转载 hive 非等值连接sql写法-2<转>

hive不支持非等值连接 join操作。如：select * from tonyjointest b join rtb_requests a on b.domain like a.domian%);但可以转化成这样：select * from tonyjointest b join rtb_requests a on (true) where b.do

2014-03-05 16:40:53 1584

转载 hive中间接实现不等值连接<转>

由于hive中不支持不等值连接，给应用带来不便。create tablelpx_test_a asselect id,class from (select 1 as id, 2 asclass from dualunion allselect 2 as id, 3 asclass from dualunion allselec

2014-03-05 16:07:03 1587

转载字典树入门及实现（JAVA）<转>

Trie树，又称单词查找树或键树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计和排序大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：利用字符串的公共前缀来节约存储空间，最大限度的减少无谓的字符串比较，查询效率比哈希表高。比如说我们想储存3个单词，sky、skyline、skymoon。如果只是单纯的按照以前的字符数组存

2014-03-04 17:14:24 1018

转载 Hadoop系列之Terasort<转>

TeraSort是Hadoop的测试中很有用的一个工具，但以前只是粗略的知道它的功能和用法，简单的用它做了几个测试用例。实际上，对于这种比较通用的工具，如果能够了解它更多一些的话，对于理解Hadoop是很有帮助的，同时也可以更好的利用它来帮助测试。最近有点时间，就了解了一些它的背景，代码实现原理等等，就先记录下来吧。1. Hadoop与Sort BenchmarksSortBenchm

2014-03-04 15:37:31 1235

转载 Hadoop 的 TotalOrderPartitioner<转>

http://blog.oddfoo.net/2011/04/17/mapreduce-partition%E5%88%86%E6%9E%90-2/ Partition所处的位置patition类结构1. Partitioner是partitioner的基类，如果需要定制partitioner也需要继承该类。2. HashPartitioner是mapr

2014-03-04 14:38:13 824

转载 MapReduce TotalOrderPartitioner 全局排序<转>

我们知道Mapreduce框架在feed数据给reducer之前会对map output key排序，这种排序机制保证了每一个reducer局部有序，Hadoop 默认的partitioner是HashPartitioner，它依赖于output key的hashcode，使得相同key会去相同reducer，但是不保证全局有序，如果想要获得全局排序结果（比如获取top N, bottom N

2014-03-04 14:01:46 646

转载 hive strict模式<转>

hive strict模式set hive.mapred.mode=nonstrict;set hive.mapred.mode=strict;hive> set hive.mapred.mode;hive.mapred.mode=nonstricthive> set hive.mapred.mode=strict;hive> select key, value fro

2014-03-04 13:48:51 3039

转载 hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法<转>

order byorder by 会对输入做全局排序，因此只有一个reducer（多个reducer无法保证全局有序）只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。set hive.mapred.mode=nonstrict; (default value / 默认值)set hive.mapred.mode=strict; order b

2014-03-04 13:44:12 539

转载 Hive体系结构<转>

本文整理自阿里数据平台的官方博客：http://www.alidata.org/archives/category/cloud-computing/hive 1、Hive架构与基本组成下面是Hive的架构图。图1.1 Hive体系结构 Hive的体系结构可以分为以下几部分：（1）用户接口主要有三个：CLI，Clie

2014-03-04 13:28:57 1041

clementine的中文教程

clementine的中文教程clementine的中文教程clementine的中文教程clementine的中文教程clementine的中文教程

2013-11-18

clementine基础培训一

2013-11-18

Hbase入门与使用

2013-07-23

Hadoop_eclipse-plugin编译方法

2012-12-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人