SparkSql在读取Mysql大表时,遇到崩溃的问题

最近被要求将python读取Mysql的脚本,改写成spark分布式的代码。虽然说感觉这么写完并没有体现spark的优势。
回归正题,当我看到代码和实际的mysql库时内心是崩溃的,因为是单点的mysql,并且单表的数据量已经超过了3700w条,再加上提供的开发环境资源实在有点紧张,在读取mysql大表的时候直接出现连接超时,或是失去连接等问题。
最终在官网上找到了可以解决的方案,不过也有些局限,不过还好我的场景比较合适,话不多说上代码:

//上面一些spark声明的代码不在书写
spark.read().jdbc("....mysql url....", "table_name","id",0,100000000,20,prop);

由于我这里表的主键是自增的 所以 这里大概的意思就是 按照id 从0开始 到100000000 分20个组 进行读取,相当于做了个逻辑分区,我是这样理解。只不过目前我也是只看到这种方法只能这么拆解数值类型的字段,如果是字符串的类型,还没找到合适的方法,如果大神知道,记得补充一下,希望对各位有所帮助!

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值