最近被要求将python读取Mysql的脚本,改写成spark分布式的代码。虽然说感觉这么写完并没有体现spark的优势。
回归正题,当我看到代码和实际的mysql库时内心是崩溃的,因为是单点的mysql,并且单表的数据量已经超过了3700w条,再加上提供的开发环境资源实在有点紧张,在读取mysql大表的时候直接出现连接超时,或是失去连接等问题。
最终在官网上找到了可以解决的方案,不过也有些局限,不过还好我的场景比较合适,话不多说上代码:
//上面一些spark声明的代码不在书写
spark.read().jdbc("....mysql url....", "table_name","id",0,100000000,20,prop);
由于我这里表的主键是自增的 所以 这里大概的意思就是 按照id 从0开始 到100000000 分20个组 进行读取,相当于做了个逻辑分区,我是这样理解。只不过目前我也是只看到这种方法只能这么拆解数值类型的字段,如果是字符串的类型,还没找到合适的方法,如果大神知道,记得补充一下,希望对各位有所帮助!