Hadoop大数据开发__Spark SQL和Hive集成离线读取数据

最新推荐文章于 2024-10-18 19:12:03 发布

姚华军

最新推荐文章于 2024-10-18 19:12:03 发布

阅读量423

点赞数

分类专栏：大数据文章标签：大数据 hadoop hive spark-sql spark-shell

本文链接：https://blog.csdn.net/yhj_911/article/details/125460383

版权

大数据专栏收录该内容

16 篇文章 2 订阅

订阅专栏

1、前面几篇文章已经完成了Hive和Spark的安装，下面进行这两部分的集成
2、修改hive-site.xml

cd /home/hadoop/app/hive/conf

  <property>
    <name>hive.metastore.uris</name>
    <value>thrift://hadoop03:9083</value>
  </property>

3、复制mysql驱动到spark的jars包下

mysql-connector-java-5.1.35.jar

4、修改spark-env.sh

HADOOP_CONF_DIR=/home/hadoop/app/hadoop/etc/hadoop

5、Hive创建数据库和表，以及准备数据

cd /home/hadoop/app/hive/bin
hive
create database kfk #创建数据库
use kfk #切换数据库
create table if not exists test(userid string, username string) 
row format delimited fields terminated by ' ' stored as textfile; #创建表

6、准备数据

cd /hom/hadoop/data
vi kfk.txt
0001 hadoop
0002 yarn
0003 hbase
0004 hive
0005 spark
0006 mysql
0007 flume

load data local inpath "/hom/hadoop/data/kfk.txt" into table test;

7、启动hive中的metastore服务

cd /home/hadoop/app/hive/bin
hive --service metastore

8、spark-sql测试（也可以用spark-shell执行测试）

cd /home/hadoop/app/spark/bin
spark-sql #用spark-sql测试
show databases
use kfk
show tables
select * from test
spark-shell #用spark-shell测试
spark.sql("select * from kfk.test").show