Hive
文章平均质量分 67
黑皮磊
这个作者很懒,什么都没留下…
展开
-
Hive拓展
1 数据集成?数据同步,抽数,导数离线数仓,离线同步数据同步的时候几个必要的东西1.数据源包括从哪里来,到哪里去可以是数据库,也可以是别的,比如FTP,ES等2.表来源表 目标表3.字段映射关系4.同步方式/同步逻辑比如从mysql到hive先清空hive表的某些分区,再插入,全删全插直接插入hive到mysql呢?全删全插直接插入主键冲突updatehive到mysql,我们公司称为“回流”同步方法1.直接对m原创 2022-04-10 18:46:24 · 2059 阅读 · 0 评论 -
学Hive 认识Hive
官网 :hive.apache.orghive简介 Hadoop广义是大数据生态圈,其中hive是使用sql完成大数据统计分析的工具Hadoop狭义:HDFS MR YarnHive是facebook公司开源的工具,用来解决海量的结构化日志的统计问题hive是构建在hadoop之上的数据仓库HDFS:hive的数据是存放在HDFS(distributed storage),元数据(medadata)存在对应的底层关系型数据库,一般是MySQLMR(计算引擎):Hive的作业(SQL).原创 2022-04-03 17:09:43 · 1448 阅读 · 0 评论 -
HIVE常用语句及内外部表对比
1.Hive 命令hive -e SQL语句hive -e "select * from tname"hive -f SQL文件 hive -f test0330.sqltest0330.sql文件create table .. temp01 select * from emp;create table .. temp02 select * from dept;insert into dws_resultselect * from temp01 le原创 2022-04-04 19:08:02 · 959 阅读 · 0 评论 -
使用客户端工具dbeaver(JDBC)连接hive
1.进入app/hadoop/etc/hadoop/目录下配置core-site.xml,添加配置文件如下 <property> <name>hadoop.proxyuser.heipilei.hosts</name> <value>*</value> </property> <property> <name>hadoop.proxyuser.原创 2022-04-04 02:00:29 · 2907 阅读 · 3 评论 -
Hive文件格式(表stored as 的五种类型)
hive文件存储格式包括以下几类:1、TEXTFILE2、SEQUENCEFILE3、RCFILE4、ORCFILE(0.11以后出现)5、PARQUET1、其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理; SEQUENCEFILE,RCFILE,ORCFILE,PARQUET格式的表不能直接从本地文件导入数据,数据要先导入到textfile格式的表中, 然后再从表中用insert导入SequenceFile..原创 2022-04-04 19:44:20 · 1682 阅读 · 0 评论 -
Hive的分区以及各种函数用法
1.分区表的创建create table emp_partition(EMPNO bigint,ENAME string,JOB string,MGR bigint,HIREDATE string,SAL bigint,COMM bigint,DEPTNO bigint)PARTITIONED BY (dt string)ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';创建一个以dt为分区列的分区表2.向表中插入数据ins原创 2022-04-05 19:18:27 · 3895 阅读 · 0 评论 -
Hive知识点总结
1.四大byorder by(全局排序) 只有一个reduce。这里无论设置多少个reduce数,都是一个 优点:全局排序 缺点:当数据量大的时候,耗时长,效率低,适用于较小数据量的场景(十万、百万) sort by(分区内排序) 对每一个reduce内部的数据进行排序,全局结果来说不是排序的 也就是说只能保证每一个reduce输出的文件中的数据是按照规定字段排序的 适用于数据量大,但是对排序要求不严格的场景,可以大幅提高执行效率(抽样)需要预先设置reduce个数,reduce结果文件内原创 2022-04-09 18:18:03 · 2002 阅读 · 0 评论