![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
文章平均质量分 64
hive
weixin_44352020
这个作者很懒,什么都没留下…
展开
-
hive卸数脚本
#!/bin/bashsource ~/.bash_profile#时间参数data_dt=$1#格式化时间参数data_chk=`date -d $data_dt`if [$? -ne 0] then exit -1fi#时间格式转为yyyyMMddfile_dt=`date -d "$data_dt" +%Y%m%d`#输出目录exp_path=/OUTPUT#判断目录是否存在不存在则新建if [! -d $exp_path/aaa];thenmkdir -p原创 2020-06-11 19:20:31 · 776 阅读 · 0 评论 -
hive拉链表方案二
hive拉链表方案一这篇文章简单说了一下第一种hive拉链表方案,下面简单说一下其他不同数据文件的拉链实现方案1.上游每天下发的数据同步类型1.每日全量数据此方式每天存一份切片即可,无需拉链处理。2.每日下发增量数据,且只有增量数据此方式将每天的增量数据放入对应的dt分区中即可,无需拉链。3.每天下发增量数据,存在增删改三种操作此方式,每行数据后多一个标识位,用于区分三种操作,需要...原创 2020-05-02 23:04:40 · 132 阅读 · 0 评论 -
hive拉链表实现方案一
1.为什么要做hive拉链表1.表数据量比较大,每天都保存全量占用空间过多。2.每天更新、新增、删除的数据量比较小。3.为了减少存储空间,将表做拉链处理。以下方案未考虑到拉链效率问题,及查询拉链表效率问题。接下来说一下第一种情况(增量数据与删除数据在不同的表中,其中id为主键)的拉链实现方式:2.涉及到的表日增量表 table_tcreate table if not exists ...原创 2020-05-02 04:02:51 · 965 阅读 · 0 评论 -
hive大字段拼接与切割实战(一个大字段保存每天历史数据)
hive大字段拼接与切割实战(一个大字段保存每天历史数据)前言去年的时候项目组接到需求要将每个客户每个产品的昨日日累计收益在hive中统计出来推送到hbase,此为对接下游1。后来又接到另一个需求,要保留最近30天的数据,还需要推送到hbase中。经过分析后可以在hive结果表中增加一个保存历史数据字段,对每天的收益进行拼接,然后对此字段进行截取30天,推送到hbase中。下面谈一下实现过程...原创 2020-05-01 15:29:15 · 1139 阅读 · 0 评论