大数据技术原理及应用课实验6 :熟悉Hive的基本操作

目录

一、实验目的

二、实验平台

三、数据集

四、实验步骤(每个步骤下均需有运行截图)

(1)创建一个内部表stocks,字段分隔符为英文逗号,表结构如表14-11所示。

  (2)创建一个外部分区表dividends(分区字段为exchange和symbol),字段分隔符为英文逗号,表结构如表14-12所示。

(3)从stocks.csv文件向stocks表中导入数据。

(4) 创建一个未分区的外部表dividends_unpartitioned,并从dividends.csv向其中导入数据,表结构如表14-13所示。

(5)通过对dividends_unpartitioned的查询语句,利用Hive自动分区特性向分区表dividends各个分区中插入对应数据。

(6)查询IBM公司(symbol=IBM)从2000年起所有支付股息的交易日(dividends表中有对应记录)的收盘价(price_close)。

(7)查询苹果公司(symbol=AAPL)2008年10月每个交易日的涨跌情况,涨显示rise,跌显示fall,不变显示unchange。

(8)查询stocks表中收盘价(price_close)比开盘价(price_open)高得最多的那条记录的交易所(exchange)、股票代码(symbol)、日期(ymd)、收盘价、开盘价及二者差价。

(9)从stocks表中查询苹果公司(symbol=AAPL)年平均调整后收盘价(price_adj_close) 大于50美元的年份及年平均调整后收盘价。

(10)查询每年年平均调整后收盘价(price_adj_close)前三名的公司的股票代码及年平均调整后收盘价。

五、实验总结

六、优化及改进(选做)


实验6  熟悉Hive的基本操作

一、实验目的

1. 理解Hive作为数据仓库在Hadoop体系结构中的角色。

2. 熟练使用常用的HiveQL。

二、实验平台

1. 操作系统:Ubuntu18.04(或Ubuntu16.04)。

2. Hadoop版本:3.1.3。

3. Hive版本:3.1.2。

4. JDK版本:1.8。

三、数据集

由《Hive编程指南》(O'Reilly系列,人民邮电出版社)提供,下载地址:

https://raw.githubusercontent.com/oreillymedia/programming_hive/master/prog-hive-1st-ed-data.zip

备用下载地址:

https://www.cocobolo.top/FileServer/prog-hive-1st-ed-data.zip

解压后可以得到本实验所需的stocks.csv和dividends.csv两个文件。

四、实验步骤(每个步骤下均需有运行截图)

(1)创建一个内部表stocks,字段分隔符为英文逗号,表结构如表14-11所示。

表14-11 stocks表结构

col_name

data_type

exchange           

string             

symbol             

string             

ymd                

string             

price_open         

float              

price_high         

float              

price_low          

float              

price_close        

float              

volume             

int                

price_adj_close    

float 

 

  (2)创建一个外部分区表dividends(分区字段为exchange和symbol),字段分隔符为英文逗号,表结构如表14-12所示。

表14-12 dividends表结构

col_name

data_type

ymd                

string             

dividend           

float              

exchange           

string             

symbol             

string             

(3)从stocks.csv文件向stocks表中导入数据。

(4) 创建一个未分区的外部表dividends_unpartitioned,并从dividends.csv向其中导入数据,表结构如表14-13所示。

表14-13 dividends_unpartitioned表结构

col_name

data_type

ymd                

string             

dividend           

float              

exchange           

string             

symbol              

string             

(5)通过对dividends_unpartitioned的查询语句,利用Hive自动分区特性向分区表dividends各个分区中插入对应数据。

(6)查询IBM公司(symbol=IBM)从2000年起所有支付股息的交易日(dividends表中有对应记录)的收盘价(price_close)。

(7)查询苹果公司(symbol=AAPL)2008年10月每个交易日的涨跌情况,涨显示rise,跌显示fall,不变显示unchange。

 

(8)查询stocks表中收盘价(price_close)比开盘价(price_open)高得最多的那条记录的交易所(exchange)、股票代码(symbol)、日期(ymd)、收盘价、开盘价及二者差价。

(9)从stocks表中查询苹果公司(symbol=AAPL)年平均调整后收盘价(price_adj_close) 大于50美元的年份及年平均调整后收盘价。

(10)查询每年年平均调整后收盘价(price_adj_close)前三名的公司的股票代码及年平均调整后收盘价。

五、实验总结

   在本次实验中,理解学习了Hive作为数据仓库在Hadoop体系结构中的角色以及学习了如何使用常用的HiveQL。具体如下:学习了创建内部表、从文件向表中导入数据、利用Hive自动分区特性向分区表dividends各个分区中插入对应数据、查询指定的内容等等。

   还有在实验中有遇到过一些问题,如在启动 Hive 时,出现 Hive metastore database is not initialized 的错误。后面经过查询才得知,出现这个错误的原因是,以前曾经安装了 Hive或MySQL,重新安装Hive 和 MySQL 以后,导致版本配置不一致。解决方法是使schematool工具。Hive现在包含一个用于Hiw Metastore架构操控的脱机工具--schematool。在此次实验中学习感受颇多,仍需继续加强学习。

六、优化及改进(选做)

【提出你觉得解决这个问题更好的算法,并加以说明】

  • 17
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
实验五的目标是熟悉Hive基本操作Hive是一个数据仓库基础设施工具,它能够提供类似于传统数据库的查询和分析功能,同时也能处理大规模的数据集。 首先,我们需要搭建Hive的环境。通过在终端输入指令,下载并解压Hive软件包,然后进行一系列配置,包括指定Hadoop的位置和Hive的元数据存放的位置等。 之后,我们启动Hive服务,并通过终端登录到Hive命令行界面。在这个界面中,我们可以运行Hive查询语句以及执行一些基本操作。 接下来,我们可以创建自己的数据库,并在其中创建表。在Hive中,表可以通过创建一个外部表或者一个内部表来实现。外部表在创建时只是一个指向数据存放位置的指针,而内部表将数据复制到Hive的默认文件系统中。 在创建表之后,我们可以向表中导入数据。通过使用Hive的LOAD命令,我们可以将数据从外部数据源导入到Hive表中。 之后,我们可以进行一些查询和分析操作。Hive提供了类似于SQL的查询语法,例如SELECT、WHERE和GROUP BY等。我们可以根据需求编写查询语句,并通过运行查询来获取结果。 除了基本的查询功能,Hive也支持一些高级功能,例如分区表、排序表和分桶表等。这些功能可以在数据处理时提供更好的性能和灵活性。 最后,我们需要记得关闭Hive服务,以免占用资源。在终端中输入指令,即可关闭Hive。 总结来说,实验五是为了熟悉Hive基本操作。我们通过搭建环境、创建表、导入数据和运行查询等步骤,了解了Hive的使用方法和功能。掌握了这些基本操作后,我们就可以在实际的数据处理和分析工作中更好地利用Hive

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值