2020年01月_攻城狮Kevin

06月 05月 04月 03月 02月 01月

原创 spark做两张大表的join操作，mapPartition和重分区算子的使用策略

Spark中做两个大hive表的join操作，先读取过来处理成两个数据量很大的RDD，如果两个RDD直接进行join操作，势必会造成shuffle等导致运行非常缓慢，那么怎么优化呢？方法如下：首先，对每个大hive表生成RDD进行优化1. 对RDD进行repartition重分区先依据Executor数和内存情况估算出对RDD分为多少个partition比较合适，因为一个par...

2020-01-11 18:25:16 6021

原创 curl发送Json参数

命令如下：curl -i -X POST -H 'Content-type':'application/json' -d {\"a\":\"abcd\"} http://127.0.0.1:28005/

2020-01-09 11:05:56 1193

原创本地配置SCF环境

C:\Windows\System32\drivers\etc\hosts文件中追加scf的地址

2020-01-06 16:30:49 461

原创 Kettle内存溢出的相关设置

kettle的内存溢出，如下图，一般是三个原因：第一，某个job（例如图中的job_smart_etl_launcher_daily_start这个job，执行并行任务）中放置的job太多，三条并行线；这种需要将多个子job放置到另一个job中，start - 子job -success，避免同一个job中设置太多任务数据量很大的job。第二，Spoon.bat（windows端）和S...

2020-01-03 11:23:38 6676

1ARCGIS工具条-启动窗口及主界面的构成

1ARCGIS工具条-启动窗口及主界面的构成，1ARCGIS工具条-启动窗口及主界面的构成，1ARCGIS工具条-启动窗口及主界面的构成

2020-11-19

win10下编译过的hadoop2.7.2 jar包

win10下编译过的hadoop2.7.2 jar包，配置hadoop客户端环境必备

2018-11-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人