零基础班Hive课程
文章平均质量分 97
The Apache Hive Data Warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL.
zhikanjiani
这个作者很懒,什么都没留下…
展开
-
零基础班第十四课 - Hive安装部署与快速入门
一、下载地址:wget http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gz解压缩:tar -xzvf hive-1.1.0-cdh5.7.0移动至app目录下:mv hive-1.1.0-cdh5.7.0 ~/apphive目录下介绍:1、bin目录 脚本执行文件2、conf配置文件位置:对于Hadoop来...原创 2019-04-07 11:21:50 · 2591 阅读 · 1 评论 -
零基础班第十五课 - Hive DDL详解
一、hive回顾1.1基于Hadoop之上的数据仓库,数据实在hdfs,元数据是在MySQL这些关系型数据库中。hive部署过程中出现的坑:1、找不到Hadoop-HOME,需要自行配置环境变量。echo $HADOOP_HOME1.2、cat hive-ste.xml打印出来需要核对参数1.3、权限问题,现在配在Hadoop001这台机器,比如MySQL远程访问这台机器要刷新权限1...原创 2020-05-27 15:56:26 · 3818 阅读 · 0 评论 -
零基础班第十六课 - Hive DML详解
前置:软件:1、hadoop-2.6.0-cdh5.7.02、jdk1.7.0_453、hive-1.1.0-cdh5.7.0hive启动前需要启动hdfs,jps三个进程要起来NN、SNN、DN。原先部署了集群,在集群中启动hive总是报错,于是自己另开了一台虚拟机部署,部署完成后还遇到一个问题:hdfs部署完成后,jps查看三个进程都已经启动,但是webui界面进不去,jps查看...原创 2019-04-19 00:16:36 · 378 阅读 · 0 评论 -
零基础班第十七课 - hive进阶
前置:关系型数据库转型大数据,采用insert方式插入后产生一堆小文件,hive0.14版本后支持insert,采用load方式加载,导出数据后期采用sqoop。一、分区表:partition table为什么采用分区表:操作日志,举例拨打客服热线,每一条记录都会有一个操作日志。传统做法:日志记录会存储到关系型数据库,不可能所有数据都存到一张表中,至少要做到分表(以天为单位进行分表)。ca...原创 2019-04-20 13:09:08 · 386 阅读 · 0 评论 -
零基础班第十八课 - Hive项目实战
第一章:上次课回顾第二章:离线处理过程中的大数据处理2.1 数据准备第一章:上次课回顾零基础班第十七课 - hive进阶:https://blog.csdn.net/zhikanjiani/article/details/89416079回顾:1、上次课主要讲了建表语句中更为复杂的函数:array_type、map_type、struct_type;2、除了直接启动Hive以外...原创 2019-09-16 17:30:48 · 1907 阅读 · 0 评论 -
Hive内部表和外部表的区别
Managed and External Tables(内部表、外部表)By default Hive creates managed tables, where files, metadata and statistics are managed by internal Hive processes. For details on the differences between managed...原创 2019-07-02 23:49:54 · 1024 阅读 · 0 评论