hive的安装与基本使用

最新推荐文章于 2022-08-16 08:04:13 发布

Godlike61

最新推荐文章于 2022-08-16 08:04:13 发布

阅读量263

点赞数

文章标签： hive 数据仓库

本文链接：https://blog.csdn.net/weixin_46792694/article/details/115533754

版权

本文介绍了数据仓库的基本概念，以及Hive作为数据仓库工具的角色。详细讲述了Hive的安装部署过程，包括元数据使用MySQL存储，以及三种交互方式：Hive交互shell、Hive JDBC服务和Hive命令行。

摘要由CSDN通过智能技术生成

hive的安装与基本使用

数据仓库的基本概念
Hive基本概念
HIVE的安装部署
hive的三种交互方式

数据仓库的基本概念

什么是数据仓库，主要用来干什么
是用来存储东西的不生产也不消耗，外界放入，主要功能是存储
数据仓库：简称DW data warehouse
目的：构建面向分析的集成化数据环境，主要职责是做分析，对仓库里面的数据来做分析
数据分析可以支持我们做决策
数据分析的特性：
面向主题：数据分析有一定的范围，需要选取一定的主题进行分析
集成性：集成各个其他方面关联的一些数据，比如分析订单购买人的情况，牵连到用户信息
非易失性：数据分析主要是分析过去已经发生的数据，分析的东西都是即成现实，不会再改变
时变性：随着时间的发展，数据的形态也在发生改变，数据分析的手段也要相应的进行改变

数据仓库与数据库的区别：
数据库：OLTP 联机事务处理数据库主要的功能就是用来做事务处理的，主要负责频繁的增删改查
数据仓库：分析处理 olap 联机的分析处理，不需要做事务的保证主要做数据的分析
数据仓库的产生是因为有大量的数据库的存在，需要对数据进一步的决策分析，然后才产生数据仓库的概念
excel keettle sass passs 都是数据分析的一些软件

数据仓库的分层：
数据仓库一般分为三层：
第一层：元数据层 ods 产生数据的地方
第二层：数据仓库层 dw层主要集中存储数据面向主题进行分析
第三层：数据应用层又叫app层主要用于展示我们分析之后的数据结果
数据在这三层之间的一个流动，称之为etl的过程

ETL：extrat 抽取转化装载的过程
为什么要对数据仓库的分层：每一层职责分析：
数据仓库的元数据管理：定义我们的数据架构，数据的位置，数据的信息
这里的元数据，记录的是我们数据仓库当中的数据如何进行处理的一整套的过程

Hive基本概念

hive：是一个数据仓库的处理工具，专门用于数据仓库的数据分析

hive是基于hadoop的一个数据仓库的工具，将结构化的数据，映射成一张表，并且提供类似sql的查询功能

本质是将sql语句转换成mareduce的任务进行执行

结构化数据：体现为数据字段固定数据类型固定数据库的表就是一种典型的结构化数据
半结构化数据:数据类型一定但是数据的字段个数不定
非结构化数据:完全没有任何规律字段类型不定，字段的个数不定，数据的类型不定音频视频
hive当中的元数据信息：
主要描述了hive表与hdfs的数据之间的映射关系
包括了字段的映射（hive 当中的哪个字段与数据当中的哪一列进行对应），数据位置的保存，建表的语句定义
数据的存储：用的是hdfs
数据的计算：用的是mr

hive的架构
在这里插入图片描述

用户接口：提供我们写sql的地方
解析器：解析我们的sql语句，转换成mr的任务提交，准备执行
元数据：记录我们hive的表与我们数据之间的映射关系
执行器：mr执行

hive与hadoop的关系：hive就是一个rm的客户端
现在的版本的hive支持插入，不支持修改，删除操作最主要的功能是查询
hive的数据是存储在hdfs上面而且hive支持各种存储格式

HIVE的安装部署

1、解压hive

cd /export/softwares
tar -zxvf hive-1.1.0-cdh5.14.0.tar.gz -C ../servers/

最低0.47元/天解锁文章

Godlike61

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫