- 博客(5)
- 资源 (12)
- 收藏
- 关注
转载 Hive解析任务-将json的多个属性拆分成多条记录
需求环境:在hive表dwb.dwb_r_thrid_data中,data字段存放有json字符串需要从json字符串中,解析到需要的字段:将一个json里面的属性data.loanInfo.mobile.timeScopes.D360、data.loanInfo.mobile.timeScopes.D90所包含的字段分别解析成一条记录,并且将D360、D90也作为字段timeSc...
2019-07-28 15:15:17 666 2
转载 ElasticSearch系列文章:核心概念介绍
在《ElasticSearch系列文章:基本介绍》中主要介绍了ElasticSearch一些使用场景,本文将对Elasticsearch的核心概念进行介绍,这对后期使用ElasticSearch有着重要的影响。 1、NearRealtime(NRT):准实时Elasticsearch是一个准实时的搜索平台,这意味着当你索引一个文档(document )时,在细微的延迟(通常1s)之后,该文...
2019-07-21 11:58:12 269
原创 Hive的UDF deterministic关键字
Hive的UDF也分为deterministic和non-deterministic。deterministic函数,即输入确定输出就是确定的函数,而non-deterministic函数在输入确定的情况下输出也不能确定,如rand()。Hive中大部分系统自带UDF函数都是deterministic的,目前只发现rand和unix_timestamp是non-deterministic的。用...
2019-07-19 00:01:42 846
原创 aws s3跨区复制文件
1. 使用aws s3提供的自带复制功能可实时同步S3数据,点击bucket的属性,在操作里有复制 选项功能,需要注意的是填写前缀的时候一定要以/结尾,否则不生效2.通过aws cli 批量复制aws s3 cp s3://mybucket-1/data_file/analytics_log_info/test/tp=app/day=2019-07-04/ s3://mybucket-...
2019-07-17 21:37:42 2108
转载 hive表直接入库本地mysql,用udf从将hive的查询结果直接写入mysql数据库中
首先先介绍一下背景,博主是hadoop大数据小白一枚,相信也有很多自学的大数据的人都跟我处境一样,在很多人已经在讨论大数据架构,实时分析,离线分析,优化等等问题的时候,我们还在闭门造车地玩着手里的那套hdfs+hbase+zookeeper+hive+sqoop+jdbc+mysql 的原始框架,然而还是到懂不懂的hadoop集群的环境和查询处理都还是十分容易搭建,但是遇到一个十分...
2019-07-07 23:48:57 1798
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人