自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 关于azure-hdinsight的坑

HDinsight相关注意最近在接触Azure会把遇到的问题 摘出来1.第一个 就是原计划用java或是scala开发 那么采用idea开发工具,是我们比较习惯的方式。当你下载好hdinsight的插件一些之后 需要加载集群的时候 当然官方给出两个方式,我们默认采用用户名密码这种,当你输入url之后他默认是azurehdinsight.net的结尾 如果你的域名最后是.cn 他也会给你改成.n...

2019-10-09 01:10:08 173

原创 SparkSql在读取Mysql大表时,遇到崩溃的问题

最近被要求将python读取Mysql的脚本,改写成spark分布式的代码。虽然说感觉这么写完并没有体现spark的优势,反而更像是给客户提高逼格用的。回归正题,当我看到代码和实际的mysql库时内心是崩溃的,因为是单点的mysql,并且单表的数据量已经超过了3700w条,再加上提供的开发环境资源实在有点紧张,在读取mysql大表的时候直接出现连接超时,或是失去连接等问题。最终在官网上找到了可...

2019-07-05 14:28:48 919

原创 Java lambda 简化JavaSpark Core代码

直接上个写得很烂的小代码片段,慢慢体会。。。SparkSession spark = SparkSession.builder() .master("local[*]") .appName("xxx") ...

2019-06-04 19:04:35 187

原创 JAVA版本 SparkSQL读取MongoDB 和 Mysql双数据源

话不多说直接上代码,就是简单demoSparkSession spark = SparkSession.builder() .master("local[*]") .appName("FactUserVehicle") ...

2019-06-04 18:48:16 1017

转载 关于mac本 python倒入mysql时报错的解决。

这几天看代码 发现需要倒入mysql 但是pip总是报错,但是win本没发现这个问题,找到一个挺不错的解决问题的链接记录一下,方便其他人或是自己以后能用到:https://www.easegamer.com/?p=545...

2019-05-05 14:51:25 82

原创 SparkSQL中groupby造成的数据倾斜

在写sql或是groupby方法的时候,经常会出现类似热点或是某个维度都shuffle到了同一个节点,这个可以在sparkUI中反映出来,导致某个executor直接dead,这时会重启一个executor去重新计算,一般如果集群资源不是很大的话,大概率依旧会死掉,重试三次之后可能job就失败了。如果你尝试了增加分区或是其他参数的优化都无效的话,个人感觉,这是在groupby的时候进行hash操...

2019-04-10 10:11:14 1904

原创 python连接mongodb数据库筛选指定字段并输出csv文件

第一次尝试用python脚本连接mongodb的简单操作前期准备话不多说直接上代码前期准备需要pymongo,codecs,csv模块,如果没下载,需要去pip话不多说直接上代码import pymongoimport codecsimport csvclient = pymongo.MongoCLient('127.0.0.1',27017)database = "test"...

2019-04-09 11:34:01 1646

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除