Hive
yongjian_luo
这个作者很懒,什么都没留下…
展开
-
hive优化之--控制hive任务中的map数和reduce数<转>
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有转载 2013-11-18 20:57:02 · 718 阅读 · 0 评论 -
<转>Apache Sentry安装及简单使用
1 环境描述三台hadoop集群,分别是master、slave1和slave2。下面是这三台机器的软件分布:master:NameNode、ZK、HiveMetaSotre、HiveServer2、SentryServerslave1:DataNode、ZKslave2:DataNode、ZK2 软件需求MySqlmysql-jdbc.jar:mysql-conn转载 2016-12-06 14:08:26 · 2025 阅读 · 0 评论 -
<转>MapReduce实现的Join
MapReduce Join对两份数据data1和data2进行关键词连接是一个很通用的问题,如果数据量比较小,可以在内存中完成连接。如果数据量比较大,在内存进行连接操会发生OOM。mapreduce join可以用来解决大数据的连接。1 思路1.1 reduce join在map阶段, 把关键字作为key输出,并在value中标记出数据是来自data1还是转载 2016-11-11 17:01:07 · 360 阅读 · 0 评论 -
<转> map join的与Reduce Join效率对比
MAPJION会把小表全部读入内存中,在map阶段直接拿另外一个表的数据和内存中表数据做匹配,由于在map是进行了join操作,省去了reduce运行的效率也会高很多使用一个表测试,该表时5分钟表,数据很少,大概60多w。测试日志里包含多个字段,其中有uid和uip。测试场景为给出2个uid,取uid共同的uip。三个不同uid转载 2016-11-11 16:57:19 · 782 阅读 · 0 评论 -
hive_正则表达式|JAVA的正则表达式案例详解<转>
如果你曾经用过Perl或任何其他内建正则表达式支持的语言,你一定知道用正则表达式处理文本和匹配模式是多么简单。如果你不熟悉这个术语,那么“正则表达式”(Regular Expression)就是一个字符构成的串,它定义了一个用来搜索匹配字符串的模式。许多语言,包括Perl、PHP、Python、JavaScript和JScript,都支持用正则表达式处理文本,一些文本编辑器用正则表转载 2014-08-11 11:26:46 · 987 阅读 · 0 评论 -
HIVE中MAPJOIN可以使用的场景分析<转>
最近开发中遇到几种应用,刚好使用MAPJOIN来解决实际的问题。应用共同点如下:1: 有一个极小的表2: 需要做不等值join操作(a.x 这种操作如果直接使用join的话语法不支持不等于操作,hive语法解析会直接抛出错误如果把不等于写到where里会造成笛卡尔积,数据异常增大,速度会很慢。甚至会任务无法跑成功~根据mapjoin的计算原理,MAP转载 2014-07-18 13:43:41 · 515 阅读 · 0 评论 -
Hive排序<转>
order byorder by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。set hive.mapred.mode=nonstrict; (default value / 默认值)set hive.mapred.mode=strict; order b转载 2014-06-10 17:01:38 · 562 阅读 · 0 评论 -
Hive学习笔记之--Hive 高级编程<转>
第一部分:产生背景产生背景为了满足客户个性化的需求,Hive被设计成一个很开放的系统,很多内容都支持用户定制,包括:•文件格式:Text File,Sequence File•内存中的数据格式: Java Integer/String, Hadoop IntWritable/Text•用户提供的 map/reduce 脚本:不管什么语言,利用 stdin/转载 2014-07-18 13:46:58 · 499 阅读 · 0 评论 -
Hive Cli<转>
Hive Cli = hive启动 = *$ hive –f script.q *$ hive -e 'SELECT * FROM dummy‘ *$ hive -S -e 'SELECT * FROM dummy‘ *$ hive -hiveconf hive.root.logger=DEBUG,console = set = *hive> SET转载 2014-05-13 20:37:00 · 931 阅读 · 0 评论 -
Hive 中 Map Join 的适用场景:非等值连接<转>
最近开发中遇到几种应用,刚好使用MAPJOIN来解决实际的问题。应用共同点如下:1: 有一个极小的表行2: 需要做不等值join操作(a.x 这种操作如果直接使用join的话语法不支持不等于操作,hive语法解析会直接抛出错误如果把不等于写到where里会造成笛卡尔积,数据异常增大,速度会很慢。甚至会任务无法跑成功~根据mapjoin的计算原理,转载 2014-03-05 16:51:21 · 1677 阅读 · 0 评论 -
hive 非等值连接sql写法-2<转>
hive不支持非等值连接 join操作。如:select * from tonyjointest b join rtb_requests a on b.domain like a.domian%);但可以转化成这样:select * from tonyjointest b join rtb_requests a on (true) where b.do转载 2014-03-05 16:40:53 · 1584 阅读 · 0 评论 -
hive中间接实现不等值连接<转>
由于hive中不支持不等值连接,给应用带来不便。create tablelpx_test_a asselect id,class from (select 1 as id, 2 asclass from dualunion allselect 2 as id, 3 asclass from dualunion allselec转载 2014-03-05 16:07:03 · 1587 阅读 · 0 评论 -
hive strict模式<转>
hive strict模式set hive.mapred.mode=nonstrict;set hive.mapred.mode=strict;hive> set hive.mapred.mode;hive.mapred.mode=nonstricthive> set hive.mapred.mode=strict;hive> select key, value fro转载 2014-03-04 13:48:51 · 3038 阅读 · 0 评论 -
Hive体系结构<转>
本文整理自阿里数据平台的官方博客:http://www.alidata.org/archives/category/cloud-computing/hive 1、Hive架构与基本组成 下面是Hive的架构图。图1.1 Hive体系结构 Hive的体系结构可以分为以下几部分: (1)用户接口主要有三个:CLI,Clie转载 2014-03-04 13:28:57 · 1041 阅读 · 0 评论 -
MapReduce TotalOrderPartitioner 全局排序<转>
我们知道Mapreduce框架在feed数据给reducer之前会对map output key排序,这种排序机制保证了每一个reducer局部有序,Hadoop 默认的partitioner是HashPartitioner,它依赖于output key的hashcode,使得相同key会去相同reducer,但是不保证全局有序,如果想要获得全局排序结果(比如获取top N, bottom N转载 2014-03-04 14:01:46 · 646 阅读 · 0 评论 -
hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法<转>
order byorder by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。set hive.mapred.mode=nonstrict; (default value / 默认值)set hive.mapred.mode=strict; order b转载 2014-03-04 13:44:12 · 539 阅读 · 0 评论 -
hive修改表模式<转>
留个备份。hive用户可以通过alter语句更改table属性Alter Partitions增加partitions:[plain] view plaincopyALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION partition_spe转载 2014-01-13 15:33:33 · 860 阅读 · 0 评论 -
Hive版本升级问题及注意事项
由于Hive在0.7和0.81版本中,concat_ws函数不支持Array,但是还需要用到concat_ws对Array的支持,so,今天对Hive的版本进行了一下升级,Hive0.9版本以上的是支持的,目前最新的版本是0.12,索性直接升级到Hive0.12版本了。遇到的问题如下:1. 元数据的改变Hive升级是向下兼容的,即升级到Hive0.12版本,对之前的Hive0.81版本的元原创 2013-12-19 17:14:37 · 1888 阅读 · 0 评论 -
<转> Hive bucket~
hive中table可以拆分成partition,table和partition可以通过‘CLUSTERED BY ’进一步分bucket,bucket中的数据可以通过‘SORT BY’排序。bucket主要作用:1. 数据sampling2. 提升某些查询操作效率,例如mapside join需要特别注意的是:clustered by和sorted by不会影响数据的导入,这意味转载 2017-03-30 15:54:47 · 494 阅读 · 0 评论