自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

攻城狮Kevin

爱学习,爱工作,爱生活

  • 博客(4)
  • 资源 (2)
  • 收藏
  • 关注

原创 spark做两张大表的join操作,mapPartition和重分区算子的使用策略

Spark中做两个大hive表的join操作,先读取过来处理成两个数据量很大的RDD,如果两个RDD直接进行join操作,势必会造成shuffle等导致运行非常缓慢,那么怎么优化呢?方法如下:首先,对每个大hive表生成RDD进行优化1. 对RDD进行repartition重分区先依据Executor数和内存情况估算出对RDD分为多少个partition比较合适,因为一个par...

2020-01-11 18:25:16 6021

原创 curl发送Json参数

命令如下:curl -i -X POST -H 'Content-type':'application/json' -d {\"a\":\"abcd\"} http://127.0.0.1:28005/

2020-01-09 11:05:56 1193

原创 本地配置SCF环境

C:\Windows\System32\drivers\etc\hosts文件中追加scf的地址

2020-01-06 16:30:49 461

原创 Kettle内存溢出的相关设置

kettle的内存溢出,如下图,一般是三个原因:第一,某个job(例如图中的job_smart_etl_launcher_daily_start这个job,执行并行任务)中放置的job太多,三条并行线;这种需要将多个子job放置到另一个job中,start - 子job -success,避免同一个job中设置太多任务数据量很大的job。第二,Spoon.bat(windows端)和S...

2020-01-03 11:23:38 6676

1ARCGIS工具条-启动窗口及主界面的构成

1ARCGIS工具条-启动窗口及主界面的构成,1ARCGIS工具条-启动窗口及主界面的构成,1ARCGIS工具条-启动窗口及主界面的构成

2020-11-19

win10下编译过的hadoop2.7.2 jar包

win10下编译过的hadoop2.7.2 jar包,配置hadoop客户端环境必备

2018-11-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除