2019年07月_玉羽凌风

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载 Hive解析任务-将json的多个属性拆分成多条记录

需求环境：在hive表dwb.dwb_r_thrid_data中，data字段存放有json字符串需要从json字符串中，解析到需要的字段：将一个json里面的属性data.loanInfo.mobile.timeScopes.D360、data.loanInfo.mobile.timeScopes.D90所包含的字段分别解析成一条记录，并且将D360、D90也作为字段timeSc...

2019-07-28 15:15:17 666 2

在《ElasticSearch系列文章：基本介绍》中主要介绍了ElasticSearch一些使用场景，本文将对Elasticsearch的核心概念进行介绍，这对后期使用ElasticSearch有着重要的影响。　　1、NearRealtime(NRT)：准实时Elasticsearch是一个准实时的搜索平台，这意味着当你索引一个文档（document ）时，在细微的延迟（通常1s）之后，该文...

2019-07-21 11:58:12 269

原创 Hive的UDF deterministic关键字

Hive的UDF也分为deterministic和non-deterministic。deterministic函数，即输入确定输出就是确定的函数,而non-deterministic函数在输入确定的情况下输出也不能确定，如rand()。Hive中大部分系统自带UDF函数都是deterministic的，目前只发现rand和unix_timestamp是non-deterministic的。用...

2019-07-19 00:01:42 846

原创 aws s3跨区复制文件

1. 使用aws s3提供的自带复制功能可实时同步S3数据，点击bucket的属性，在操作里有复制选项功能，需要注意的是填写前缀的时候一定要以/结尾，否则不生效2.通过aws cli 批量复制aws s3 cp s3://mybucket-1/data_file/analytics_log_info/test/tp=app/day=2019-07-04/ s3://mybucket-...

2019-07-17 21:37:42 2108

转载 hive表直接入库本地mysql，用udf从将hive的查询结果直接写入mysql数据库中

首先先介绍一下背景，博主是hadoop大数据小白一枚，相信也有很多自学的大数据的人都跟我处境一样，在很多人已经在讨论大数据架构，实时分析，离线分析，优化等等问题的时候，我们还在闭门造车地玩着手里的那套hdfs+hbase+zookeeper+hive+sqoop+jdbc+mysql 的原始框架，然而还是到懂不懂的hadoop集群的环境和查询处理都还是十分容易搭建，但是遇到一个十分...

2019-07-07 23:48:57 1798