SparkSql在读取Mysql大表时，遇到崩溃的问题

最新推荐文章于 2022-11-12 15:28:33 发布

weixin_44840312

最新推荐文章于 2022-11-12 15:28:33 发布

阅读量919

点赞数

分类专栏： spark java

本文链接：https://blog.csdn.net/weixin_44840312/article/details/94733836

版权

spark 同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

java

3 篇文章 0 订阅

订阅专栏

最近被要求将python读取Mysql的脚本，改写成spark分布式的代码。虽然说感觉这么写完并没有体现spark的优势。
回归正题，当我看到代码和实际的mysql库时内心是崩溃的，因为是单点的mysql，并且单表的数据量已经超过了3700w条，再加上提供的开发环境资源实在有点紧张，在读取mysql大表的时候直接出现连接超时，或是失去连接等问题。
最终在官网上找到了可以解决的方案，不过也有些局限，不过还好我的场景比较合适，话不多说上代码：

//上面一些spark声明的代码不在书写
spark.read().jdbc("....mysql url....", "table_name","id",0,100000000,20,prop);

由于我这里表的主键是自增的所以这里大概的意思就是按照id 从0开始到100000000 分20个组进行读取，相当于做了个逻辑分区，我是这样理解。只不过目前我也是只看到这种方法只能这么拆解数值类型的字段，如果是字符串的类型，还没找到合适的方法，如果大神知道，记得补充一下，希望对各位有所帮助！

weixin_44840312

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
SparkSql在读取Mysql大表时，遇到崩溃的问题

最近被要求将python读取Mysql的脚本，改写成spark分布式的代码。虽然说感觉这么写完并没有体现spark的优势，反而更像是给客户提高逼格用的。回归正题，当我看到代码和实际的mysql库时内心是崩溃的，因为是单点的mysql，并且单表的数据量已经超过了3700w条，再加上提供的开发环境资源实在有点紧张，在读取mysql大表的时候直接出现连接超时，或是失去连接等问题。最终在官网上找到了可...
复制链接

扫一扫

专栏目录