- 博客(7)
- 收藏
- 关注
原创 关于azure-hdinsight的坑
HDinsight相关注意最近在接触Azure会把遇到的问题 摘出来1.第一个 就是原计划用java或是scala开发 那么采用idea开发工具,是我们比较习惯的方式。当你下载好hdinsight的插件一些之后 需要加载集群的时候 当然官方给出两个方式,我们默认采用用户名密码这种,当你输入url之后他默认是azurehdinsight.net的结尾 如果你的域名最后是.cn 他也会给你改成.n...
2019-10-09 01:10:08
173
原创 SparkSql在读取Mysql大表时,遇到崩溃的问题
最近被要求将python读取Mysql的脚本,改写成spark分布式的代码。虽然说感觉这么写完并没有体现spark的优势,反而更像是给客户提高逼格用的。回归正题,当我看到代码和实际的mysql库时内心是崩溃的,因为是单点的mysql,并且单表的数据量已经超过了3700w条,再加上提供的开发环境资源实在有点紧张,在读取mysql大表的时候直接出现连接超时,或是失去连接等问题。最终在官网上找到了可...
2019-07-05 14:28:48
919
原创 Java lambda 简化JavaSpark Core代码
直接上个写得很烂的小代码片段,慢慢体会。。。SparkSession spark = SparkSession.builder() .master("local[*]") .appName("xxx") ...
2019-06-04 19:04:35
187
原创 JAVA版本 SparkSQL读取MongoDB 和 Mysql双数据源
话不多说直接上代码,就是简单demoSparkSession spark = SparkSession.builder() .master("local[*]") .appName("FactUserVehicle") ...
2019-06-04 18:48:16
1017
转载 关于mac本 python倒入mysql时报错的解决。
这几天看代码 发现需要倒入mysql 但是pip总是报错,但是win本没发现这个问题,找到一个挺不错的解决问题的链接记录一下,方便其他人或是自己以后能用到:https://www.easegamer.com/?p=545...
2019-05-05 14:51:25
82
原创 SparkSQL中groupby造成的数据倾斜
在写sql或是groupby方法的时候,经常会出现类似热点或是某个维度都shuffle到了同一个节点,这个可以在sparkUI中反映出来,导致某个executor直接dead,这时会重启一个executor去重新计算,一般如果集群资源不是很大的话,大概率依旧会死掉,重试三次之后可能job就失败了。如果你尝试了增加分区或是其他参数的优化都无效的话,个人感觉,这是在groupby的时候进行hash操...
2019-04-10 10:11:14
1904
原创 python连接mongodb数据库筛选指定字段并输出csv文件
第一次尝试用python脚本连接mongodb的简单操作前期准备话不多说直接上代码前期准备需要pymongo,codecs,csv模块,如果没下载,需要去pip话不多说直接上代码import pymongoimport codecsimport csvclient = pymongo.MongoCLient('127.0.0.1',27017)database = "test"...
2019-04-09 11:34:01
1646
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人