hive
sj天问
这个作者很懒,什么都没留下…
展开
-
Hive 自定义UDTF编写
背景编写一个动作日志表,动作日志表中每行数据对应用户的一个动作记录,一个动作记录应当包含公共信息、页面信息以及动作信息。先将包含action字段的日志过滤出来,然后通过UDTF函数,将action数组“炸开”(类似于explode函数的效果),然后使用get_json_object函数解析每个字段。我们编写的这个UDTF函数需要把传入的JSON数组“炸开”,然后输出,如图所示创建UDTF函数导入依赖<dependencies> <!--添加hive依赖-->原创 2020-12-15 19:28:53 · 397 阅读 · 0 评论 -
hadoop生态圈知识总结
Linux&Shell相关总结Linux常用命令序号命令命令解释1top查看内存2df -h查看磁盘存储情况3iotop查看磁盘IO读写(yum install iotop安装)4iotop -o直接查看比较高的磁盘读写程序5netstat -tunlp | grep 端口号查看端口占用情况6uptime查看报告系统运行时长及平均负载7ps -aux查看进程Shell常用工具1)awk、sed、cut、原创 2020-11-26 15:06:49 · 739 阅读 · 0 评论 -
hive调优
执行计划(Explain)1)基本语法EXPLAIN [EXTENDED | DEPENDENCY | AUTHORIZATION] query2)案例实操(1)查看下面这条语句的执行计划没有生成MR任务的hive (default)> explain select * from emp;ExplainSTAGE DEPENDENCIES: Stage-0 is a root stageSTAGE PLANS: Stage: Stage-0 Fetch Operat原创 2020-10-30 18:06:06 · 2285 阅读 · 0 评论 -
hive压缩
Hadoop压缩配置MR支持的压缩编码为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器,如下表所示:压缩性能的比较:On a single core of a Core i7 processor in 64-bit mode, Snappy compresses at about 250 MB/sec or more and decompresses at about 500 MB/sec or more.压缩参数配置要在Hadoop中启用压缩,可以配置如下参数(mapred-原创 2020-10-30 16:50:30 · 115 阅读 · 0 评论 -
hive函数
系统内置函数1)查看系统自带的函数hive> show functions;2)显示自带的函数的用法hive> desc function upper;3)详细显示自带的函数的用法hive> desc function extended upper;常用内置函数8.2.1 空字段赋值1)函数说明NVL:给值为NULL的数据赋值,它的格式是NVL( value,default_value)。它的功能是如果value为NULL,则NVL函数返回default_valu原创 2020-10-28 21:22:20 · 771 阅读 · 0 评论 -
hive命令(hql)
基本查询全表和特定列查询0)数据准备(0)原始数据dept:10 ACCOUNTING 170020 RESEARCH 180030 SALES 190040 OPERATIONS 1700emp:7369 SMITH CLERK 7902 1980-12-17 800.00 207499 ALLEN SALESMAN 7698 1981-2-20 1600.00 300.00 307521 WARD SALESMAN 7698 1981-2-22 1250.00 500.00原创 2020-10-27 18:54:24 · 953 阅读 · 0 评论