2019年09月_攻城狮Kevin

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创记录用户画像标签数据入库ES过程中，分词、分片、副本、压测等

最近公司用户画像平台一期3000余个标签数据，需要用到ES集群进行数据写入和读取，前前后后踩坑经历一个月，这篇博文记录一下总体流程和踩坑心得。大概流程是将3000余个标签的数据存储在hive表中，然后通过spark任务写入到ES集群中，同时会从ES集群中读取数据，进行聚合等操作。一、ES的分词、shards、replications、fielddata的意义（设定mapping的原则）...

2019-09-23 20:58:33 2977 3

原创 spark任务报错：org.apache.spark.shuffle.FetchFailedException: Failed to connect to tjtx148-6-173.58os.org

org.apache.spark.shuffle.FetchFailedException: Failed to connect to tjtx148-6-173.58os.org:7337org.apache.spark.shuffle.FetchFailedException: Failed to connect to tjtx148-6-173.58os.org:7337 at or...

2019-09-19 11:07:14 1399

原创 ES报连接错误的处理：Connection error (check network and/or proxy settings)- all nodes failed; tried

用户画像项目的数据侧，需要将hive表在HDFS的数据，通过spark程序批次写入ES集群，最近几天做压测，发现spark程序运行到一半就挂掉，日志报错如下：org.apache.spark.util.TaskCompletionListenerException: Connection error (check network and/or proxy settings)- all nod...

2019-09-17 11:10:27 10153

原创 shell中执行命令随笔

1. 需要将命令后台挂起执行，不管命令执行成功与否，脚本继续往下执行nohup 命令 > /dev/null 2>&1 &2. 需要等待命令执行完毕后，脚本才继续往下执行./check_90d_data.sh ${sday} > XXXX.log 2>&13. 脚本中需要进行计算result=$((${XXXX}*1000)...

2019-09-11 20:59:23 895

原创 shell动态循环监控HDFS路径下新分区是否生成的脚本

用户画像项目DataToES环节中，需要在kettle启动之前动态监控${sday}的90d数据是否已经生成，不用公司xcenter的方案如下：每隔5min动态监控HDFS路径下${sday}新分区文件夹是否生成：方案一：${_HADOOP_BIN} fs -text /HDFS路径/${sday}/*00000*|head -10|wc -l监控HDFS路径下文件，查看前10...

2019-09-11 20:50:47 752

原创 shell脚本中变量运算

变量运算用$(())start=123end=$((${start}*1000))echo ${end}-----------------------------123000

2019-09-11 15:11:40 524

原创 curl不打印% Total信息

在shell中使用curl命令操作ES的时候，打印日志会报如下信息 % Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed100 ...

2019-09-11 10:58:24 5203

1ARCGIS工具条-启动窗口及主界面的构成

1ARCGIS工具条-启动窗口及主界面的构成，1ARCGIS工具条-启动窗口及主界面的构成，1ARCGIS工具条-启动窗口及主界面的构成

2020-11-19

win10下编译过的hadoop2.7.2 jar包

win10下编译过的hadoop2.7.2 jar包，配置hadoop客户端环境必备

2018-11-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人