- 博客(4)
- 资源 (2)
- 收藏
- 关注
原创 spark做两张大表的join操作,mapPartition和重分区算子的使用策略
Spark中做两个大hive表的join操作,先读取过来处理成两个数据量很大的RDD,如果两个RDD直接进行join操作,势必会造成shuffle等导致运行非常缓慢,那么怎么优化呢?方法如下:首先,对每个大hive表生成RDD进行优化1. 对RDD进行repartition重分区先依据Executor数和内存情况估算出对RDD分为多少个partition比较合适,因为一个par...
2020-01-11 18:25:16 6021
原创 curl发送Json参数
命令如下:curl -i -X POST -H 'Content-type':'application/json' -d {\"a\":\"abcd\"} http://127.0.0.1:28005/
2020-01-09 11:05:56 1193
原创 Kettle内存溢出的相关设置
kettle的内存溢出,如下图,一般是三个原因:第一,某个job(例如图中的job_smart_etl_launcher_daily_start这个job,执行并行任务)中放置的job太多,三条并行线;这种需要将多个子job放置到另一个job中,start - 子job -success,避免同一个job中设置太多任务数据量很大的job。第二,Spoon.bat(windows端)和S...
2020-01-03 11:23:38 6676
1ARCGIS工具条-启动窗口及主界面的构成
2020-11-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人