weixin_44840312-CSDN博客

原创关于azure-hdinsight的坑

HDinsight相关注意最近在接触Azure会把遇到的问题摘出来1.第一个就是原计划用java或是scala开发那么采用idea开发工具，是我们比较习惯的方式。当你下载好hdinsight的插件一些之后需要加载集群的时候当然官方给出两个方式，我们默认采用用户名密码这种，当你输入url之后他默认是azurehdinsight.net的结尾如果你的域名最后是.cn 他也会给你改成.n...

2019-10-09 01:10:08 173

原创 SparkSql在读取Mysql大表时，遇到崩溃的问题

最近被要求将python读取Mysql的脚本，改写成spark分布式的代码。虽然说感觉这么写完并没有体现spark的优势，反而更像是给客户提高逼格用的。回归正题，当我看到代码和实际的mysql库时内心是崩溃的，因为是单点的mysql，并且单表的数据量已经超过了3700w条，再加上提供的开发环境资源实在有点紧张，在读取mysql大表的时候直接出现连接超时，或是失去连接等问题。最终在官网上找到了可...

2019-07-05 14:28:48 919

原创 Java lambda 简化JavaSpark Core代码

直接上个写得很烂的小代码片段，慢慢体会。。。SparkSession spark = SparkSession.builder() .master("local[*]") .appName("xxx") ...

2019-06-04 19:04:35 187

原创 JAVA版本 SparkSQL读取MongoDB 和 Mysql双数据源

话不多说直接上代码，就是简单demoSparkSession spark = SparkSession.builder() .master("local[*]") .appName("FactUserVehicle") ...

2019-06-04 18:48:16 1017

转载关于mac本 python倒入mysql时报错的解决。

这几天看代码发现需要倒入mysql 但是pip总是报错，但是win本没发现这个问题，找到一个挺不错的解决问题的链接记录一下，方便其他人或是自己以后能用到：https://www.easegamer.com/?p=545...

2019-05-05 14:51:25 82

原创 SparkSQL中groupby造成的数据倾斜

在写sql或是groupby方法的时候，经常会出现类似热点或是某个维度都shuffle到了同一个节点，这个可以在sparkUI中反映出来，导致某个executor直接dead，这时会重启一个executor去重新计算，一般如果集群资源不是很大的话，大概率依旧会死掉，重试三次之后可能job就失败了。如果你尝试了增加分区或是其他参数的优化都无效的话，个人感觉，这是在groupby的时候进行hash操...

2019-04-10 10:11:14 1904

原创 python连接mongodb数据库筛选指定字段并输出csv文件

第一次尝试用python脚本连接mongodb的简单操作前期准备话不多说直接上代码前期准备需要pymongo，codecs，csv模块，如果没下载，需要去pip话不多说直接上代码import pymongoimport codecsimport csvclient = pymongo.MongoCLient('127.0.0.1',27017)database = "test"...

2019-04-09 11:34:01 1646

weixin_44840312的博客