hive的安装与基本使用

本文介绍了数据仓库的基本概念,以及Hive作为数据仓库工具的角色。详细讲述了Hive的安装部署过程,包括元数据使用MySQL存储,以及三种交互方式:Hive交互shell、Hive JDBC服务和Hive命令行。
摘要由CSDN通过智能技术生成

数据仓库的基本概念

什么是数据仓库,主要用来干什么
是用来存储东西的 不生产也不消耗,外界放入,主要功能是存储
数据仓库:简称DW data warehouse
目的:构建面向分析的集成化数据环境,主要职责是做分析,对仓库里面的数据来做分析
数据分析可以支持我们做决策
数据分析的特性:
面向主题:数据分析有一定的范围,需要选取一定的主题进行分析
集成性:集成各个其他方面关联的一些数据,比如分析订单购买人的情况,牵连到用户信息
非易失性:数据分析主要是分析过去已经发生的数据,分析的东西都是即成现实,不会再改变
时变性:随着时间的发展,数据的形态也在发生改变,数据分析的手段也要相应的进行改变

数据仓库与数据库的区别:
数据库:OLTP 联机事务处理 数据库主要的功能就是用来做事务处理的,主要负责频繁的增删改查
数据仓库:分析处理 olap 联机的分析处理,不需要做事务的保证 主要做数据的分析
数据仓库的产生是因为有大量的数据库的存在,需要对数据进一步的决策分析,然后才产生数据仓库的概念
excel keettle sass passs 都是数据分析的一些软件

数据仓库的分层:
数据仓库一般分为三层:
第一层:元数据层 ods 产生数据的地方
第二层: 数据仓库层 dw层 主要集中存储数据 面向主题进行分析
第三层:数据应用层 又叫app层 主要用于展示我们分析之后的数据结果
数据在这三层之间的一个流动,称之为etl的过程

ETL:extrat 抽取 转化 装载的过程
为什么要对数据仓库的分层:每一层职责分析:
数据仓库的元数据管理:定义我们的数据架构,数据的位置,数据的信息
这里的元数据,记录的是我们数据仓库当中的数据如何进行处理的一整套的过程

Hive基本概念

hive:是一个数据仓库的处理工具,专门用于数据仓库的数据分析

hive是基于hadoop的一个数据仓库的工具,将结构化的数据,映射成一张表,并且提供类似sql的查询功能

本质是将sql语句转换成mareduce的任务进行执行

结构化数据:体现为数据字段固定 数据类型固定 数据库的表就是一种典型的结构化数据
半结构化数据:数据类型一定 但是数据的字段个数不定
非结构化数据:完全没有任何规律 字段类型不定 ,字段的个数不定,数据的类型不定 音频视频
hive当中的元数据信息:
主要描述了hive表与hdfs的数据之间的映射关系
包括了字段的映射 (hive 当中的哪个字段与数据当中的哪一列进行对应),数据位置的保存,建表的语句定义
数据的存储:用的是hdfs
数据的计算:用的是mr

hive的架构
在这里插入图片描述

用户接口:提供我们写sql的地方
解析器:解析我们的sql语句,转换成mr的任务提交,准备执行
元数据:记录我们hive的表与我们数据之间的映射关系
执行器:mr执行

hive与hadoop的关系:hive就是一个rm的客户端
现在的版本的hive支持插入,不支持修改,删除操作 最主要的功能是查询
hive的数据是存储在hdfs上面 而且hive支持各种存储格式

HIVE的安装部署

1、解压hive

cd /export/softwares
tar -zxvf hive-1.1.0-cdh5.14.0.tar.gz -C ../servers/

2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值