spark
spark相关知识与实践
zhoukk1985
这个作者很懒,什么都没留下…
展开
-
spark通过JDBC读取hive事务表
目前spark2.x版本底层并不支持spark直接访问hive事务表,只能获取表结构,不能获取数据,有兴趣的同学可以试验一下。网上也查阅了很多相关的资料,现在把它们总结一下,目前能想到的解决方案就是通过jdbc的方式获取,以下就是解决方案:sql: str = "(select * from std.ice_tiantongfen_back_for_resolve_url_2) as temp"jdbcDF = sparkSession.read \ .format("jdbc") \原创 2020-07-20 18:21:28 · 2799 阅读 · 5 评论 -
Spark 3.0 中七个必须知道的 SQL 性能优化
本文来自IBM 东京研究院的高级技术人员 Kazuaki Ishizaki 博士在Spark Summit North America 2020 的 《SQL Performance Improvements at a Glance in Apache Spark 3.0》议题的分享。Spark 3.0正式版在上个月已经发布了,其中更新了很多功能,参见过往记忆大数据的Apache Spark 3.0.0 正式版终于发布了,重要特性全面解析。本文将介绍 Spark 3.0 在 SQL 方面的优化。...转载 2020-07-09 10:18:58 · 935 阅读 · 0 评论 -
Adaptive Execution如何让Spark SQL更高效更好用?
文章目录背景 动态设置 Shuffle Partition Spark Shuffle 原理 原有 Shuffle 的问题 自动设置 Shuffle Partition 原理 使用与优化方法 动态调整执行计划 固定执行计划的不足 SortMergeJoin 原理 BroadcastJoin 原理 动态调整执行计划原理 使用与优化方法 自动处理数据倾斜 解决数据倾斜典型方案 自动解决数据倾斜 使用与优化方法 本文转发自技术世界,原文链接 htt转载 2020-07-02 09:08:02 · 104 阅读 · 0 评论 -
JVM 发生 OOM 的 8 种原因、及解决办法
1. Java 堆空间发生频率:5颗星造成原因 无法在 Java 堆中分配对象 吞吐量增加 应用程序无意中保存了对象引用,对象无法被 GC 回收 应用程序过度使用 finalizer。finalizer 对象不能被 GC 立刻回收。finalizer 由结束队列服务的守护线程调用,有时 finalizer 线程的处理能力无法跟上结束队列的增长 解决方案 使用-Xmx增加堆大小 修复应用程序中的内存泄漏 2. GC 开销超过限制发生频..转载 2020-06-28 15:16:25 · 462 阅读 · 0 评论 -
来自 Facebook 的 Spark 大作业调优经验
Facebook Spark 的使用情况在介绍下面文章之前我们来看看 Facebook 的 Spark 使用情况:•Spark 是 Facebook 内部最大的 SQL 查询引擎(按 CPU 使用率计算)•在存储计算分离的集群上使用 Spark,也就是存储和计算资源可以单独扩展升级。•考虑到 Facebook 的规模,效率是 Spark 的首要任务,主要包括以下两个效率:•计算效率:优化CPU和内存使用,CPU 的 40% 时间花在读写上。•存储效率:优化磁盘大小和IOPS:存储格式对磁盘占用大转载 2020-06-15 23:06:34 · 449 阅读 · 0 评论