Spark主要在内存中运算,最终运算结果可以通过Hive存入到Mysql(MariaDB)和HDFS系统的。
结论
1.表的基本信息(表名,创建时间,所属者等)存入Mysql(MariaDB)
2.表的数据存入HDFS系统
下面的试验的前提是Spark环境,Hadoop,Hive,MariaDB环境是正常的情况下,
1.做spark和Hive集成,
2.通过Spark来建表,和插入数据,
3.在DB和DHFS中查看插入的数据。
一、项目环境
Linux:centos7
JDK: java version 1.8
Python:3.8
Spark:spark-3.2.1-bin-hadoop2.7.tgz
Hadoop:2.7.3
Hive:2.1.1
MariaDB:5.5.64
二、环境集成
1.在spark/conf中创建 hive-site.xml 文件
<configuration&