Hive
是谁注册了我的2052
给我2052
展开
-
Hive索引
1.首先创建表create table user(id int,name string,address string)ROW FORMAT DELIMITEDFIELDS TERMINATED BY ‘,’STORED AS TEXTFILE;2.创建索引create index user_index on table user(id)as ‘org.apache.hadoo...转载 2020-01-12 19:29:55 · 79 阅读 · 0 评论 -
Hive支持多分隔符
一:hive支持多分隔符前言:需求:导出hive表中的数据,以|+|作为分隔符多么大胆的需求啊,终于埋坑了!关键字段:ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe' WITH SERDEPROPERTIES ("field.delim"="|+|")...原创 2019-12-18 19:20:17 · 315 阅读 · 0 评论 -
hive默认存储格式造成异常
一:hive键表对比默认格式和parquet格式的坑1.键表1.test1表默认格式create table test1 (id STRING,name STRING,address STRING) row format delimited fields terminated by ','2.test2使用parquet格式create table test2 (id STRING...原创 2019-12-16 19:48:31 · 193 阅读 · 0 评论 -
让Hive支持JSON解析
一:下载jar包下载:github网址: https://github.com/rcongiu/Hive-JSON-Serde二:安装使用1.把jar包拷贝到hive/lib目录下和spark/jars目录下2.在Hive建表语句中添加 row formart serde 'org.openx.data.jsonserde.JsonSerDe'使用该语句替代row format ...原创 2019-10-27 16:01:09 · 175 阅读 · 0 评论 -
SparkSQL解决数据倾斜实战介绍(适用于HiveSQL)
一:什么情况会出现数据倾斜?哪些情况会出现数据倾斜:1、shuffle的时候,如果这个产生shuffle的字段为空,会出现数据倾斜2、key有很多,分区数设置的过少,导致很多key聚集在一个分区出现数据倾斜3、当某一个表中某一个key数据特别多,然后使用group by 就会出现数据倾斜4、大表 join 小表 ,这两个表中某一个表有某一个key或者某几个key数据比较多,会出现数据倾...原创 2019-10-24 13:01:37 · 1524 阅读 · 0 评论 -
Hive的调优
Hive作为数据仓库的管理工具,经常处理大量数据,但是又基于hadoop平台的,底层运行的是mapreduce,所以它在分布式处理大量数据的优势就很明显,但是优势又往往是劣势所在.没有哪款软件是完美的,所以hive在实时处理的短板就交给后续 的Impala给补齐吧.在此不讨论实时处理的范畴,只是简单介绍几种Hive在查询数据上的优化小知识.第一种方式:Fecth抓取作用:改变查询的底层运行...原创 2019-08-28 01:25:17 · 103 阅读 · 0 评论 -
Hive的复杂函数
一:复杂类型构建操作1.Map类型构建 – map集合create table map01 as select map(1,‘a’,2,‘b’) as t; //创建一个map01表,根据map(1,‘a’,2,‘b’) 构建一个 叫t的集合describe map01;t map<int,string>select t...原创 2019-09-22 12:01:08 · 533 阅读 · 0 评论