赵英超的博客

相互学习,共同进步

spark SQL上踩过的坑

那些年我们在spark SQL上踩过的坑 1.高并发情况下的内存泄露的具体表现 很遗憾,spark的设计架构并不是为了高并发请求而设计的,我们尝试在网络条件不好的集群下,进行100并发的查询,在压测3天后发现了内存泄露。 a)在进行大量小SQL的压测过程中发现...

2017-10-21 19:58:25

阅读数 191

评论数 0

spark-sql调优

sparksql性能调优 性能优化参数  代码实例 import java.util.List; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaSparkContext; import o...

2017-10-21 19:45:41

阅读数 1070

评论数 0

Spark Sql性能测试

Spark Sql性能测试及调优 目录(?)[+] 内存不足时group by操作失败。 正常应该速度变慢,而不是失败,因为还有磁盘可用 错误日志: Task: java.io.IOException: Filesystem clos...

2017-10-21 19:38:37

阅读数 279

评论数 0

Spark-SQL编程总结

概览 Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完成特殊优化。可以通过SQL、DataFrames API、Datasets API与Spark SQL进行交互,无论使用...

2017-03-23 12:59:39

阅读数 2032

评论数 1

Spark源码走读之 -- sql的解析与执行

一般来说任意一个sql子系统都需要有parser,optimizer,execution三大功能模块,在spark中这些又都是如何实现的呢,这些实现又有哪些亮点和问题?带着这些疑问,本文准备做一些比较深入的分析。 SQL模块分析有几大难点,分别为 sql分析和执行的通用过程,这个与是否...

2017-03-23 11:47:46

阅读数 277

评论数 0

SparkSQL相关语法总结

1.in 不支持子查询 eg. select * from src where key in(select key from test); 支持查询个数 eg. select * from src where key in(1,2,3,4,5); in 40000个 耗时25.766秒 in 80...

2017-03-23 11:23:23

阅读数 823

评论数 0

提示
确定要删除当前文章?
取消 删除