![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive
Exzzla
这个作者很懒,什么都没留下…
展开
-
Hive概述
产生背景 1、MR编程不便性 2、传统的RDBMS人员的需求 Hive是什么? Hive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序。 Hive处理的数据存储在H...原创 2019-03-20 14:04:07 · 168 阅读 · 0 评论 -
HIve:DDL&DML
官网:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL 基本数据类型 Hive数据类型(红色为常用) 长度 说明 TINYINT 1byte有符号整数 用INT替代 SMALINT ...原创 2019-04-06 19:10:15 · 147 阅读 · 0 评论 -
Hive:分区&分桶
分区表 在Hive查询中一般会扫描整个表内容,当数据量比较大的时候,机器的负担是很重的,而且有时候只需要扫描表中关心的一部分数据,因此就引入了分区概念。 分区表实际上就是对应一个HDFS上独立的文件夹,该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指...原创 2019-04-08 15:55:01 · 488 阅读 · 1 评论 -
HIve:元数据表结构
Hive中的元数据信息默认是存储在derby中的,但是derby是单session的,一般都会修改成mysql。 在mysql中的metastore库中存放着hive所有元数据信息的表(如下图)。本文将分别介绍他们各自的用途。 VERSION表 存储Hive版本的元数据表,如果该表出现问题,根本进入不了Hive-Cli,会报错”Table ‘hive.version’ doesn’t e...原创 2019-04-08 17:20:45 · 176 阅读 · 0 评论 -
大数据压缩与存储
压缩 为什么要压缩? 1)减少磁盘的存储空间 2)减少网络和磁盘的IO 3)加快数据在磁盘和网络中的传输速度,从而提高系统的处理速度 压缩的局限性 每次使用数据时需要先将数据解压,加重CPU负荷。 压缩格式 压缩格式 工具 算法 文件扩展名 ...原创 2019-04-09 15:26:27 · 1879 阅读 · 0 评论