自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (5)
  • 收藏
  • 关注

转载 利用MapReduce解决在海量数据中求Top K个数<转>

利用MapReduce求海量数据中最大的K个数 [java] view plaincopypackage jtlyuan.csdn;  import java.io.IOException;  import org.apache.hadoop.conf.Configuration;  import org.apache

2014-03-24 17:29:05 953

转载 Hive 中 Map Join 的适用场景:非等值连接<转>

最近开发中遇到几种应用,刚好使用MAPJOIN来解决实际的问题。应用共同点如下:1: 有一个极小的表行2: 需要做不等值join操作(a.x 这种操作如果直接使用join的话语法不支持不等于操作,hive语法解析会直接抛出错误如果把不等于写到where里会造成笛卡尔积,数据异常增大,速度会很慢。甚至会任务无法跑成功~根据mapjoin的计算原理,

2014-03-05 16:51:21 1677

转载 hive 非等值连接sql写法-2<转>

hive不支持非等值连接 join操作。如:select * from  tonyjointest b join rtb_requests a  on b.domain like a.domian%);但可以转化成这样:select * from  tonyjointest b join rtb_requests a  on (true)   where  b.do

2014-03-05 16:40:53 1584

转载 hive中间接实现不等值连接<转>

由于hive中不支持不等值连接,给应用带来不便。create tablelpx_test_a asselect id,class from (select 1 as id, 2 asclass from dualunion allselect 2 as id, 3 asclass from dualunion allselec

2014-03-05 16:07:03 1587

转载 字典树入门及实现(JAVA)<转>

Trie树,又称单词查找树或键树,是一种树形结构,是一种哈希树的变种。 典型应用是用于统计和排序大量的字符串(但不仅限于字符串), 所以经常被搜索引擎系统用于文本词频统计。它的优点是:  利用字符串的公共前缀来节约存储空间,最大限度的减少无谓的字符串比较,查询效率比哈希表高。  比如说我们想储存3个单词,sky、skyline、skymoon。如果只是单纯的按照以前的字符数组存

2014-03-04 17:14:24 1018

转载 Hadoop系列之Terasort<转>

TeraSort是Hadoop的测试中很有用的一个工具,但以前只是粗略的知道它的功能和用法,简单的用它做了几个测试用例。实际上,对于这种比较通用的工具,如果能够了解它更多一些的话,对于理解Hadoop是很有帮助的,同时也可以更好的利用它来帮助测试。最近有点时间,就了解了一些它的背景,代码实现原理等等,就先记录下来吧。1. Hadoop与Sort BenchmarksSortBenchm

2014-03-04 15:37:31 1235

转载 Hadoop 的 TotalOrderPartitioner<转>

http://blog.oddfoo.net/2011/04/17/mapreduce-partition%E5%88%86%E6%9E%90-2/ Partition所处的位置patition类结构1. Partitioner是partitioner的基类,如果需要定制partitioner也需要继承该类。2. HashPartitioner是mapr

2014-03-04 14:38:13 824

转载 MapReduce TotalOrderPartitioner 全局排序<转>

我们知道Mapreduce框架在feed数据给reducer之前会对map output key排序,这种排序机制保证了每一个reducer局部有序,Hadoop 默认的partitioner是HashPartitioner,它依赖于output key的hashcode,使得相同key会去相同reducer,但是不保证全局有序,如果想要获得全局排序结果(比如获取top N, bottom N

2014-03-04 14:01:46 646

转载 hive strict模式<转>

hive strict模式set hive.mapred.mode=nonstrict;set hive.mapred.mode=strict;hive> set hive.mapred.mode;hive.mapred.mode=nonstricthive> set hive.mapred.mode=strict;hive> select key, value fro

2014-03-04 13:48:51 3039

转载 hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法<转>

order byorder by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。set hive.mapred.mode=nonstrict; (default value / 默认值)set hive.mapred.mode=strict; order b

2014-03-04 13:44:12 539

转载 Hive体系结构<转>

本文整理自阿里数据平台的官方博客:http://www.alidata.org/archives/category/cloud-computing/hive    1、Hive架构与基本组成    下面是Hive的架构图。图1.1 Hive体系结构    Hive的体系结构可以分为以下几部分:    (1)用户接口主要有三个:CLI,Clie

2014-03-04 13:28:57 1041

clementine的中文教程

clementine的中文教程clementine的中文教程clementine的中文教程clementine的中文教程clementine的中文教程

2013-11-18

clementine基础培训一

clementine基础培训一

2013-11-18

Hbase入门与使用

Hbase入门与使用

2013-07-23

Hadoop_eclipse-plugin编译方法

Hadoop_eclipse-plugin编译方法

2012-12-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除