PySpark 踩坑百科全书
读取文件spark.read.json(url)读取 multi-line json string报错信息是 _corrupt_record error when reading a JSON file into Spark 之类的意思是从 JSON 字符串解析对象失败。网上常见的解决方法是在 .json() function call 里加额外的参数变成 .json(url, multiLine=True). 但奇怪的是在 AWS 上即使这样做了仍然会提示错误最后的解决方法是自己另外写个 p
原创
2021-05-26 03:04:38 ·
444 阅读 ·
0 评论