![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
SQL
续写童话
学无止境
展开
-
hive常见的对表操作语句-修改表/字段名、增字段、删分区、复制表等
现有分区表table1表,表结构如下:+--------------------------+-----------------------+-----------------------+--+| col_name | data_type | comment |+--------------------------+-----------------------+-----------------------+--+原创 2021-01-18 20:57:29 · 1803 阅读 · 0 评论 -
hive中最全order by 详解
这里写自定义目录标题欢迎使用Markdown编辑器1. 升序asc2. 降序desc3. 多字段混合排序4. 当order by 遇到null 时,将如何排序?欢迎使用Markdown编辑器语法:order by 字段名 asc/desc(升序/降序)1. 升序ascselect * from table order by a1 asc或者select * from table order by a1order by默认是升序排序,所以asc可以省略2. 降序descselect *原创 2021-01-17 22:49:56 · 2819 阅读 · 0 评论 -
超全!!hive时间戳函数unix_timestamp,from_unixtime
时间戳是数据库常用的存放日期的形式之一,表示从 UTC 时间’1970-01-01 00:00:00’开始到现在的秒数,与常规时间格式如 ‘2020-09-01 00:00:00’可以相互转换。时间戳分为10位的时间戳和13位的时间戳,10位就是存放的秒数,13位就是存放的毫秒数。(1)unix_timestampa. 语法:unix_timestamp() 返回值:返回当前时间戳 举例:hive>select unix_timestamp(); >15989原创 2020-09-01 18:31:19 · 5197 阅读 · 1 评论 -
Hive常用函数汇总
1.split(分割字符串)语法:split(string str, string pat)返回值:array说明:按照pat字符串分割str,会返回分割后的字符串数组举例:hive>select split('qazwsxedc','s'); >["qazw","xedc"]2.size3.collect系列函数功能:实现多行合并(1)collect_set语法:collect_set(字段名)返回值:array说明:只接受基本数据类型,主要作用是将某原创 2020-09-01 18:31:41 · 173 阅读 · 0 评论 -
HIVE文件存储格式(texfile,sequencefile, rcfile,orcfile,parquet)
**存储格式:**指在hive建表的时候指定的将表中的数据按照什么样子的存储格式,如果制定了A方式,那么在向表中插入数据的时候,将会使用该方式向HDFS中添加相应的数据类型。hive的文件存储格式包括以下几类:textfilesequencefilercfileorcfileparquet自定义格式textfile和sequencefile是行式存储,orcfile和parquet是列式存储(1)textfile默认的存储格式存储方式:行存储不压缩磁盘开销大,数原创 2020-08-19 20:32:08 · 1574 阅读 · 0 评论 -
Kettle安装下载与应用
Kettle安装下载与应用持续更新中1.简介kettle是一款开源的ETL工具,允许我们管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么。注:ETL是指EXTRACT(抽取)、TRANSFORM(转换)、LOAD(加载)(1)两种脚本文件transformation和job,transfromation完成针对数据的基础转换,job则完成整个工作流的控制。(2)五个组件Spoon:图形用户界面,允许通过图形界面设计ETL转换过程Pan:转换(transform)执行器原创 2020-08-18 09:11:46 · 368 阅读 · 0 评论 -
hive的数据倾斜问题
hive的数据倾斜问题1.什么是数据倾斜数据倾斜是我们在进行分布式计算的时候,某些节点的计算能力较强或需要计算的数据量很少,早早的执行完了;而某些节点的计算能力较差或此节点需要计算的数据较多,导致出现其他节点的reduce阶段任务执行完成,但是这种节点的数据处理任务还没有执行完成2.数据倾斜产生的现象如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题。3.产生...原创 2019-11-29 21:26:38 · 232 阅读 · 0 评论