Hive
文章平均质量分 50
Hive 小知识
xiaolin_xinji
这个作者很懒,什么都没留下…
展开
-
Flink写数据到 hudi中,hive读取
flink hive on hudi 手动创建表文档 : https://www.yuque.com/docs/share/879349ce-7de4-4284-9126-9c2a3c93a91d?#%20%E3%80%8AHive%20On%20Hudi%E3%80%8B在 /data/app/hive/auxlib 目录放入hudi jar–>hudi-hadoop-mr-bundle-0.10.0.jar或者 修改配置项 hive-site.xmlhive.default.aux.j原创 2022-02-17 14:51:51 · 4333 阅读 · 11 评论 -
demo-flink1.11.2实现数据写入hive
环境准备1. hadoop 集群的开启,hive metastore 服务开启2. flink-conf.yaml, sql-client-defaults.yaml 配置 注意: 必须开启checkpoint ,flink 才可提交分区操作3. flink 集群的开启 启动:yarn-session.sh -n 3 -s 3 -nm flink-session -d 关闭:yarn application -kill applicationId4. KafKa集群开启.原创 2021-03-10 16:59:10 · 794 阅读 · 0 评论 -
Apache Atlas2.1.0 集成Hive元数据管理
Atlas里的相关概念Type元数据类型定义,这里可以是表,列,视图,物化视图等,还可以细分hive表(hive_table),hbase表(hbase_table)等,甚至可以是一个数据操作行为,比如定时同步从一张表同步到另外一张表这个也可以描述为一个元数据类型,atlas自带了很多类型,但是可以通过调用api自定义类型Classification分类,通俗点就是给元数据打标签,分类是可以传递的,比如user_view这个视图是基于user这个表生成的,那么如果user打上了HR这个标签,原创 2021-02-26 15:33:36 · 1156 阅读 · 3 评论 -
hive面经之一:大表小表之间join
在Hive调优里面,经常会问到一个很小的表和一个大表进行join,如何优化。 Shuffle 阶段代价非常昂贵,因为它需要排序和合并。减少 Shuffle 和 Reduce 阶段的代价可以提高任务性能。 MapJoin通常用于一个很小的表和一个大表进行join的场景,具体小表有多小,由参数hive.mapjoin.smalltable.filesize来决定,该参数表示小表的总大小,默认值为25000000字节,即25M。 Hive0.7之前,需要使用hint提示 /*+原创 2021-02-20 13:32:12 · 1334 阅读 · 0 评论 -
mysql数据库字段中存在隐藏字符CHAR(0)--解决小记
在一次数据处理过程中,发现 有几条数据不能直接存储到pgsql 中,mysql 清洗数据,最后落地pgsql中, 通过报错 该数据字段中 存在ckar(0) 字符. 经过百度 Google 发现 ,如果字符串中包含了 char(0) 的字符,字符后面内容是显示不出来的--示例select concat('1',char(0),'2'), --隐藏了数字2 replace(concat('1',char(0),'2'),char(0),'$') --替换char(0),后面的数原创 2020-06-09 14:12:42 · 1721 阅读 · 0 评论 -
自定义UDF函数二 引入jar注册函数到hive中
因项目需求原因,需获取中文拼音首字母大写的需求,hive 中 内置函数不满足需求,故新创建一个maven 项目,自定义udf 函数。准备pom.xml <dependencies> <!-- https://mvnrepository.com/artifact/com.belerweb/pinyin4j --> <!--中文转拼音 jar 工具类--> <dependency> <grou原创 2020-07-15 14:07:21 · 541 阅读 · 0 评论 -
Zeppelin的初体验--安装,hive on Zeppelin
简介eppelin是一个基于Web的notebook,提供交互数据分析和可视化。后台支持接入多种数据处理引擎,如spark,hive等。支持多种语言: Scala(Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等。本文主要介绍Zeppelin中Interpreter和SparkInterpreter的实现原理。官方网址: http://zeppelin.apache.org/Zeppelin 下载地址:wge原创 2020-07-09 13:27:18 · 745 阅读 · 0 评论 -
Josn字符串处理 explode/from_json/get_json_object的使用--小记补充
字符串数组解析: 使用 from_json 将字符串转为数组,再使用 explode 切分数组 获取最终结果[ { "real_name":"饶**", "user_photo":null, "gender":"男", "id_card_no":"5224********3614", "start_date":"2016-10-26T00:00:00", "expiry_date":"2036-1.原创 2020-06-12 17:54:21 · 951 阅读 · 0 评论 -
使用idea, sparksql读取hive中的数据
将hive下的conf的hive-site.xml配置文件放在resources下;在应用 pom.xml中配置jar; <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.11</artifactId>...原创 2019-10-17 17:18:13 · 2313 阅读 · 2 评论 -
hive的 内部表与外部表的详解
创建hive 内部表(managed table)create table emp_managed(empno int,ename string,job string,mgr int,hiredate string,sal double,comm double,deptno int) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';...原创 2019-10-29 17:12:14 · 356 阅读 · 0 评论 -
自定义UDF函数一 注册到hive源码
1.准备Hadoop环境 是hadoop-2.6.0-cdh1.51.1资源路径hive-1.1.0-cdh5.15.1http://archive.cloudera.com/cdh5/cdh/5/自定义的udf函数新建的AddPrefixUDF 类继承UDF这个类,然后重写 evaluate ()方法注意 要修改自定义的udf函数包路径package ...原创 2019-10-08 17:23:06 · 234 阅读 · 0 评论 -
hive-1.1.0-cdh1.51.1部署
1.解压源文件[hadoop@hadoop001 software]# tar -zxvf apache-hive-1.1.0-cdh5.15.1-bin.tar.gz -C /home/hadoop/app/#建立软链接[hadoop@hadoop001 software]# ln -s apache-hive-1.1.0-cdh5.15.1-bin zookeeper# 配置环境e...原创 2019-10-08 17:22:11 · 333 阅读 · 0 评论