spark
weixin_44840312
这个作者很懒,什么都没留下…
展开
-
SparkSQL中groupby造成的数据倾斜
在写sql或是groupby方法的时候,经常会出现类似热点或是某个维度都shuffle到了同一个节点,这个可以在sparkUI中反映出来,导致某个executor直接dead,这时会重启一个executor去重新计算,一般如果集群资源不是很大的话,大概率依旧会死掉,重试三次之后可能job就失败了。 如果你尝试了增加分区或是其他参数的优化都无效的话,个人感觉,这是在groupby的时候进行hash操...原创 2019-04-10 10:11:14 · 1954 阅读 · 0 评论 -
JAVA版本 SparkSQL读取MongoDB 和 Mysql双数据源
话不多说直接上代码,就是简单demo SparkSession spark = SparkSession.builder() .master("local[*]") .appName("FactUserVehicle") ...原创 2019-06-04 18:48:16 · 1042 阅读 · 0 评论 -
Java lambda 简化JavaSpark Core代码
直接上个写得很烂的小代码片段,慢慢体会。。。 SparkSession spark = SparkSession.builder() .master("local[*]") .appName("xxx") ...原创 2019-06-04 19:04:35 · 221 阅读 · 0 评论 -
SparkSql在读取Mysql大表时,遇到崩溃的问题
最近被要求将python读取Mysql的脚本,改写成spark分布式的代码。虽然说感觉这么写完并没有体现spark的优势,反而更像是给客户提高逼格用的。 回归正题,当我看到代码和实际的mysql库时内心是崩溃的,因为是单点的mysql,并且单表的数据量已经超过了3700w条,再加上提供的开发环境资源实在有点紧张,在读取mysql大表的时候直接出现连接超时,或是失去连接等问题。 最终在官网上找到了可...原创 2019-07-05 14:28:48 · 966 阅读 · 0 评论 -
关于azure-hdinsight的坑
HDinsight相关注意 最近在接触Azure会把遇到的问题 摘出来 1.第一个 就是原计划用java或是scala开发 那么采用idea开发工具,是我们比较习惯的方式。当你下载好hdinsight的插件一些之后 需要加载集群的时候 当然官方给出两个方式,我们默认采用用户名密码这种,当你输入url之后他默认是azurehdinsight.net的结尾 如果你的域名最后是.cn 他也会给你改成.n...原创 2019-10-09 01:10:08 · 194 阅读 · 0 评论