SparkSQL通过Hive创建DataFrame

SparkSQL通过Hive创建DataFrame问题分析

问题一
Caused by: org.apache.spark.sql.catalyst.analysis.NoSuchTableException:
 Table or view 'stu' not found in database 'default';

分析:确实没有临时表View,并且没有开启Hive支持
解决:开启Hive支持
    val spark: SparkSession = SparkSession.builder()
      .appName("SparkUtils")
      .master("local[*]")
      .enableHiveSupport()  // Hive支持
      .getOrCreate()
问题二
hive> show databases;
FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException:
java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

分析和解决
1.2.0  SparkSql自带的Hive版本为1.2.0,每次连接之后版本会变成自带版本1.2.0,而本机版本为2.3.1,所以报错
2.3.1  将版本改为2.3.1
问题三:
Exception in thread "main" java.lang.IllegalArgumentException:
Unable to instantiate SparkSession with Hive support because Hive classes are not found.

分析: 因为没有spark连接hive的jar
解决:
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-hive_2.11</artifactId>
            <version>2.3.3</version>
        </dependency>
问题四:
19/12/31 11:00:53 INFO HiveMetaStore: 0: get_table : db=default tbl=stu
19/12/31 11:00:53 INFO audit: ugi=yuhui	ip=unknown-ip-addr	cmd=get_table : db=default tbl=stu
Exception in thread "main" org.apache.spark.sql.AnalysisException: Table or view not found: stu; line 2 pos 14

分析:
缺少 core-site.xml , hdfs-site.xml ,hive-site.xml

解决:
/usr/app/hadoop-2.8.5/etc/hadoop/core-site.xml
/usr/app/hadoop-2.8.5/etc/hadoop/hdfs-site.xml
/usr/app/apache-hive-2.3.1-bin/conf/hive-site.xml
放在resources中
问题五:
Caused by: org.datanucleus.store.rdbms.connectionpool.DatastoreDriverNotFoundException:
The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH.
Please check your CLASSPATH specification, and the name of the driver.

        <dependency>
            <groupId>mysql</groupId>
            <artifactId>mysql-connector-java</artifactId>
            <version>5.1.39</version>
        </dependency>
问题六:
Exception in thread "main" org.apache.hadoop.security.AccessControlException:
Permission denied: user=yuhui, access=READ_EXECUTE, inode="/user/hive/warehouse/stu":root:supergroup:drwx-wx-wx
	at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.check(FSPermissionChecker.java:318)
	at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:225)
	at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:189)
	at org.apache.hadoop.hdfs.server.namenode.FSDirectory.checkPermission(FSDirectory.java:1663)


方法一、在代码中加入这句话: System.setProperty("HADOOP_USER_NAME","ROOT")
方法二、hadoop fs  -chmod 777 /user/hive/warehouse/stu.txt

二、SparkSQL通过Hive创建DataFrame代码

package bolg

import org.apache.spark.sql.{DataFrame, SparkSession}

/**
 * @author: 余辉  
 * @blog: https://blog.csdn.net/silentwolfyh
 * @create: 2019-12-31 10:31
 * @description:
 **/
object DF03_Create_Hive {

  def main(args: Array[String]): Unit = {

    System.setProperty("HADOOP_USER_NAME", "ROOT")

    val spark: SparkSession = SparkSession.builder()
      .appName("SparkUtils")
      .master("local[*]")
      .enableHiveSupport()
      .getOrCreate()

    spark.sql(
      """
        |select * from stu
        |
        |""".stripMargin).show()
  }
}

三、数据及结果展示

create table userinfo(id int,name string)
row format delimited fields terminated by ',';

load data local inpath '/root/data/userinfo.txt' overwrite into table userinfo;

1,xiaohui
2,xiaowang
3,xiaoyu

在这里插入图片描述在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Java使用SparkSQL读取Hive数据可以通过以下步骤实现: 1. 创建SparkSession对象 ```java SparkSession spark = SparkSession.builder() .appName("ReadHiveData") .master("local") .enableHiveSupport() .getOrCreate(); ``` 2. 使用SparkSession对象创建DataFrame ```java Dataset<Row> df = spark.sql("SELECT * FROM my_table"); ``` 3. 显示DataFrame的数据 ```java df.show(); ``` 完整代码示例: ```java import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.SparkSession; public class ReadHiveData { public static void main(String[] args) { SparkSession spark = SparkSession.builder() .appName("ReadHiveData") .master("local") .enableHiveSupport() .getOrCreate(); Dataset<Row> df = spark.sql("SELECT * FROM my_table"); df.show(); } } ``` ### 回答2: SparkSQLSpark生态系统的一种高级数据处理引擎,能够处理结构化的数据,包括读取、转换、过滤、聚合和持久化等操作。为了方便数据分析,SparkSQL提供了读取Hive数据的功能,使得用户能够在不离开Spark环境的情况下访问和操作Hadoop集群的数据。 首先,为了将SparkSQLHive进行连接,我们需要在Spark配置Hive的元数据存储位置和版本等信息,以便SparkSQL能够通过这些信息访问Hive。在创建SparkSession时,我们需要设置以下选项: ``` SparkSession.builder() .appName("SparkSQLHiveExample") .config("hive.metastore.uris", "thrift://localhost:9083") .enableHiveSupport() .getOrCreate(); ``` 其hive.metastore.uris参数指定Hive元数据处理程序的URI(Uniform Resource Identifier)地址,enableHiveSupport()则示启用Hive支持。 接着,我们可以通过SparkSession来访问Hive。例如,我们可以使用类似SQL语句的方式来查询Hive: ``` val df = spark.sql("SELECT * FROM myHiveTable") ``` 上面的代码会返回一个DataFrame对象,其包含myHiveTable所有的行和列。 除了基本的查询操作,SparkSQL还支持更复杂的操作,例如使用JOIN、过滤器、聚合和窗口函数等。SparkSQL也可以将查询结果保存到Hive,以便以后进行检索和分析: ``` df.write.mode("overwrite").saveAsTable("newHiveTable") ``` 上面的代码将df数据保存到一个名为newHiveTable的Hive。 总体来说,使用SparkSQL读取Hive数据非常方便,只需要设置好元数据和Hive支持选项后即可直接访问Hive。由于SparkSQL支持复杂的查询和数据操作,因此可以帮助用户更加高效地处理和分析Hadoop集群的数据。 ### 回答3: Java SparkSQL读取Hive数据是使用SparkSQL API以Java语言将Hive数据读取到Spark进行处理和分析的过程。SparkSQLSpark的一个模块,它提供了一种基于结构化数据的数据处理和分析方法。而Hive是基于Hadoop的数据仓库,它提供了一个SQL-like的查询接口来查询和分析Hadoop的数据。 在Java SparkSQL读取Hive数据首先需要建立SparkSession实例,创建连接。使用SparkSession的builder()方法可以创建一个SparkSession Builder对象,然后可以通过设置相关的配置参数来创建SparkSession实例。其的master()方法是指定Spark集群的Master地址,appName()方法是设置应用程序的名称。 在配置参数设置完成后,我们可以使用SparkSession的read()方法读取Hive。读取数据时应指定数据源格式和名。在这里,我们使用SparkSession的jdbc()方法将Hive名与Hive元数据库连接起来,并设置相关的参数,包括数据库名称、Hive服务地址、Hive连接地址等。 读取Hive后,我们可以使用SparkSQL的API进行数据处理和分析。SparkSQL提供了很多常用的操作,如filter()、groupBy()、join()等。这些操作可以针对Spark SQL DataFrames进行操作,实现各种计算和数据分析。当然,数据处理完成后,我们也可以将数据写回到Hive,实现数据的持久化和数据共享。 需要注意的是,使用Java SparkSQL读取Hive数据需要确保Hive服务已经启动。并且,在使用SparkSQL读取Hive数据时,需要指定Hadoop的相关环境变量以便正确地加载Hadoop和Hive相关的类库。此外还需要注意Spark版本和Hive版本之间的兼容性,以避免因版本不匹配而导致的异常情况的发生。 总体而言,Java SparkSQL读取Hive数据是一种基于大数据生态系统的数据处理和分析方法,它能够实现高效地读取和处理Hive的数据,为数据科学家和研究人员提供了丰富的工具和方法。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值