Hive基础

最新推荐文章于 2024-07-24 20:46:25 发布

hsiehchou

最新推荐文章于 2024-07-24 20:46:25 发布

阅读量99

点赞数

分类专栏：大数据 Hive 文章标签： Hive

本文链接：https://blog.csdn.net/xzddfgj/article/details/88046390

版权

大数据同时被 2 个专栏收录

37 篇文章 0 订阅

订阅专栏

Hive

3 篇文章 0 订阅

订阅专栏

Hive


 
 
  
  <p>官网：
  
  <a href="http://hive.apache.org/" target="_blank">http://hive.apache.org/
  
  </a> 
  
  <br>

Apache Hive?数据仓库软件有助于使用SQL读取，编写和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据中。提供了命令行工具和JDBC驱动程序以将用户连接到Hive

Hive提供了SQL查询功能 hdfs分布式存储

Hive本质HQL转化为MapReduce程序
环境前提：
1）启动hdfs集群
2）启动yarn集群
如果想用hive的话，需要提前安装部署好hadoop集群

为什么要学习Hive

简化开发
easycoding!
高德地图使用Hive

优势：
1）操作接口采用类sql语法，select * from stu;
简单、上手快！
2）hive可以替代mr程序，sqoop
3）hive可以处理海量数据
4）hive支持UDF，自定义函数

劣势：
1）处理数据延迟高，慢
引擎：1.2.2以前版本都是用的mr引擎
2.x之后用的是Spark引擎
2）HQL的表达能力有限
一些sql无法解决的场景，依然需要我们写MapReduce

hive架构原理解析

sql->转换->MapReduce->job

hive安装部署

1）下载
2）上传到Linux
3)解压
tar -zxvf apache-hive-1.2.2-bin.tar.gz -C hd/
4)重命名
mv apache-hive-1.2.2-bin/ hive

5)修改配置文件
mv hive-env.sh.template hive-env.sh
vi hive-env.sh
HADOOP_HOME=/root/hd/hadoop-2.8.4
export HIVE_CONF_DIR=/root/hd/hive/conf

6)启动
bin/hive
配置mysql元数据库
1）拷贝mysql驱动到hive/lib
cp/mv hive/lib
2) 添加hive-site.xml


 
 
  
  

 
 
 
 
  
  <?xml version="1.0"?>

 
 
 
 
  
  <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

 
 
 
 
  
  <configuration>

 
 
 
 
  
  <property>

 
 
 
 
  
  <name>javax.jdo.option.ConnectionURL
  
  </name>

 
 
 
 
  
  <?xml version="1.0"?>

 
 
 
 
  
  <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

 
 
 
 
  
  <value>jdbc:mysql://hsiehchou121:3306/metastore?createDatabas

 
 
 
 
  
  eIfNotExist=true
  
  </value>

 
 
 
 
  
  <description>JDBC connect string for a JDBC

 
 
 
 
  
  metastore
  
  </description>

 
 
 
 
  
  </property>

 
 
 
 
  
  <property>

 
 
 
 
  
  <name>javax.jdo.option.ConnectionDriverName
  
  </name>

 
 
 
 
  
  <value>com.mysql.jdbc.Driver
  
  </value>

 
 
 
 
  
  <description>Driver class name for a JDBC metastore
  
  </descr

 
 
 
 
  
  iption>

 
 
 
 
  
  </property>

 
 
 
 
  
  <property>

 
 
 
 
  
  <name>javax.jdo.option.ConnectionUserName
  
  </name>

 
 
 
 
  
  <value>root
  
  </value>

 
 
 
 
  
  <description>username to use against metastore database
  
  </d

 
 
 
 
  
  escription>

 
 
 
 
  
  </property>

 
 
 
 
  
  <property>

 
 
 
 
  
  <name>javax.jdo.option.ConnectionPassword
  
  </name>

 
 
 
 
  
  <value>root
  
  </value>

 
 
 
 
  
  <description>password to use against metastore database
  
  </d

 
 
 
 
  
  escription>

 
 
 
 
  
  </property>

3)注意：重启hadoop集群
4）启动hive
bin/hive
此时mysql中创建metastore元数据库
hive> create table hsiehchou(id int, name string)

row format
delimited fields
terminated by ‘\t’;
OK
hive> load data local inpath ‘/root/hsiehchou.txt’ into table hsiehchou;
OK
hive> select * from hsiehchou;
OK
1 re
2 mi
3 zk
4 sf
5 ls

杀死hive进程
[root@hsiehchou121 hive]# ps -aux|grep hive
root 3649 3.7 16.9 2027072 239240 pts/0 Tl 21:37 0:31
root 4285 0.0 0.0 112648 948 pts/0
[root@hsiehchou121 hive]# kill -9 3649

安装mysql5.6
yum search libaio # 检索相关信息
yum install libaio # 安装依赖包


 
 
  
  wget <
  
  a href=
  
  "http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm" target=
  
  "_blank">
  
  http://dev.mysql.com/
  
  get/mysql-community-release-el7
  
  -5.noarch.rpm</
  
  a></p>

添加 MySQL Yum Repository 到linux系统 repository 列表中，输入
yum localinstall mysql-community-release-el7-5.noarch.rpm

验证是否添加成功
yum repolist enabled | grep “mysql.-community.”

查看 MySQL 版本，输入
yum repolist all | grep mysql

可以看到 5.5， 5.7 版本是默认禁用的，因为现在最新的稳定版是 5.6
yum repolist enabled | grep mysql

通过 Yum 来安装 MySQL，输入
yum install mysql-community-server

rpm -qi mysql-community-server.x86_64 0:5.6.24-3.el7

查看 MySQL 的安装目录
whereis mysql

启动 MySQL Server
systemctl start mysqld

查看 MySQL Server 状态
systemctl status mysqld

关闭 MySQL Server
systemctl stop mysqld

测试是否安装成功
mysql

修改mysql密码
use mysql;
update user set password=password(‘root’) where user=’root’;
flush privileges;

数据导入操作

load data []local] inpath ‘/root/hsiehchou.txt’ into table hsiehchou;
load data:加载数据
local:可选操作，如果加上local导入是本地linux中的数据，如果去掉local 那么
导入的是hdfs中数据。
inpath:表示的是加载数据的路径
into table:表示要加载的对应的表

hive数据类型

Java数据类型	Hive数据类型	长度
byte	TINYINT	1byte有符号整数
short	SMALLINT	2byte有符号整数
int	INT	4byte有符号整数
long	GINT	8byte有符号整数
boolean	BOOLEAN	false/true
float	FLOAT	单精度浮点
double	DOUBLE	双精度浮点
string	STRING	字符
	BINARY	字节数组

DDL数据定义

1)查看数据库

show databases;

2)创建库

create database hive_db;

3)创建库标准写法

create database if not exists hive_db;

4)创建库指定hdfs路径

create database hive_db location ‘/hive_db’;

5)创建表

如果指定了hdfs路径
创建的表存在于这个路径

6）查看数据库结构

desc database hive_db;

7)添加额外的描述信息

alter database hive_db set dbproperties(‘created’=’hsiehchou’);
注意：查询需要使用desc database extended hive_db;

8)查看指定的通配库:过滤

show databases like ‘h*’;

9）删除空库

drop database hive_db;

10）删除非空库

drop database hive_db2 cascade;

11) 删除非空库标准写法

drop database if exists hive_db cascade;

创建表

create [external] table [if not exists] table_name(字段信息) [partitioned by(字段信息)][clustered by(字段信息)] [sorted by(字段信息)]row format delimited fields terminated by ‘切割符’;

管理表

默认不加external创建的就是管理表，也称为内部表。
MANAGED_TABLE管理表。
Table Type:MANAGED_TABLE
查看表类型：
desc formatted hsiehchou2;

外部表

EXTERNAL_TABLE外部表
创建方式：
create external table student(id int,name string)
区别：如果是管理表删除hdfs中数据删除，如果是外部表删除hdfs数据不删除！

hive命令

1）不登录hive客户端直接输入命令操作Hive
[root@hsiehchou121 hive]# bin/hive -e “select * from hsiehchou;”
19/02/28 03:09:23 WARN conf.HiveConf: HiveConf of name hive.cli,print.current.db does not exist
Logging initialized using configuration in jar:file:/root/hd/hive/lib/hive-common-1.2.2.jar!/hive-log4j.properties
OK
hsiehchou.id hsiehchou.name
1 re
2 mi
3 zk
4 sf
5 ls

2）直接把sql写入到文件中
bin/hive -f /root/hived.sql

3）查看hdfs文件
dfs -ls /;
dfs -cat /wc/in/words.txt;

4）查看历史操作
[root@hsiehchou121 hive]# cat ~/.hivehistory

在hive/conf/hive-site.xml中增加


 
 
  
  

 
 
 
   
  
  <property>

 
 
 
                 
  
  <name>hive.cli.print.header
  
  </name>

 
 
 
                 
  
  <value>true
  
  </value>

 
 
 
         
  
  </property>

 
 
 
 
  
  

 
 
 
         
  
  <property>

 
 
 
                 
  
  <name>hive.cli.print.current.db
  
  </name>

 
 
 
                 
  
  <value>true
  
  </value>

 
 
 
         
  
  </property>