spark
落花流水i
致明日的舞
展开
-
Spark-SQL之Hive交互|使用内嵌Hive|外部Hive应用|运行Spark SQL CLI|代码中操作Hive
Hive交互 Apache Hive 是 Hadoop 上的 SQL 引擎,Spark SQL编译时可以包含 Hive 支持,也可以不包含。 包含 Hive 支持的 Spark SQL 可以支持 Hive 表访问、UDF (用户自定义函数)以及 Hive 查询语言(HiveQ...转载 2021-05-12 20:20:40 · 329 阅读 · 0 评论 -
spark sql处理日志的案例
题目要求数据集部分预览pom文件:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://m原创 2021-04-21 21:22:54 · 2717 阅读 · 4 评论 -
AccessControlException: Permission denied: user=Administrator, access=WRITE, inode=“/user/out1/_temp
报错信息Exception in thread "main" org.apache.hadoop.security.AccessControlException: Permission denied: user=Administrator, access=WRITE, inode="/user/out1/_temporary/0":root:supergroup:drwxr-xr-x at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecke原创 2021-04-21 19:59:09 · 1507 阅读 · 0 评论 -
Spark的local,Standalone,Yarn三种模式搭建
目录一:local模式1.local模式简介2.local模式搭建二:Standalone模式搭建1.Standalone模式简介:2.Standalone模式的搭建:三:Yarn模式yarn模式简介yarn模式搭建一:local模式1.local模式简介Local模式就是运行在一台计算机上的模式,通常就是用于在本机上练手和测试。它可以通过以下集中方式设置Master。local:所有计算都运行在一个Core当中,没有任何并行计算,通常我们在本机执行一些测试代码,或者练手,就用这种模式;local原创 2020-12-06 15:06:07 · 959 阅读 · 0 评论 -
Spark中RDD,DataFrame和DataSet的区别,联系以及相互转换
RDD:RDD (Resilient Distributed Dataset) 叫做弹性分布式数据集,它归属于SpqrkCore模块中,是Spark中最基本的数据抽象,代码中RDD是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。并且RDD表示只读的分区的数据集,对RDD进行改动,只能通过RDD的转换操作来进行。DataFrame: 归属于SparkSql模块里面,是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。相对于RDD来讲它多了schema元信息,即Dat原创 2020-11-30 21:26:50 · 913 阅读 · 0 评论 -
解决ERROR spark.SparkContext: Error initializing SparkContext
今天在开启spark-shell时报了如下错误:从报错的日志上面来看可以知道它说SparkContext初始化异常,并且和hadoop的端口通信的时候显示连接失败。刚开始的时候我检查了启动的spark进程发现也没问题。[root@hadoop102 logs]# showjps.sh ===================== root@hadoop102 =======================7315 Worker7395 Jps7237 Master===============原创 2020-11-25 17:52:59 · 8263 阅读 · 1 评论 -
关于spark中spark-submit和spark-shell简介
spark-submit:1.它主要是用于提交编译并打包好的Jar包到集群环境中来运行,和hadoop中的hadoop jar命令很类似,hadoop jar是提交一个MR-task,而spark-submit是提交一个spark任务,这个脚本**可以设置Spark类路径(classpath)和应用程序依赖包,并且可以设置不同的Spark所支持的集群管理和部署模式。**相对于spark-shell来讲它不具有REPL(交互式的编程环境)的,在运行前需要指定应用的启动类,jar包路径,参数等内容。2.基原创 2020-11-13 15:26:19 · 647 阅读 · 0 评论