- 博客(7)
- 资源 (2)
- 收藏
- 关注
原创 记录用户画像标签数据入库ES过程中,分词、分片、副本、压测等
最近公司用户画像平台一期3000余个标签数据,需要用到ES集群进行数据写入和读取,前前后后踩坑经历一个月,这篇博文记录一下总体流程和踩坑心得。大概流程是将3000余个标签的数据存储在hive表中,然后通过spark任务写入到ES集群中,同时会从ES集群中读取数据,进行聚合等操作。一、ES的分词、shards、replications、fielddata的意义(设定mapping的原则)...
2019-09-23 20:58:33 2977 3
原创 spark任务报错:org.apache.spark.shuffle.FetchFailedException: Failed to connect to tjtx148-6-173.58os.org
org.apache.spark.shuffle.FetchFailedException: Failed to connect to tjtx148-6-173.58os.org:7337org.apache.spark.shuffle.FetchFailedException: Failed to connect to tjtx148-6-173.58os.org:7337 at or...
2019-09-19 11:07:14 1399
原创 ES报连接错误的处理:Connection error (check network and/or proxy settings)- all nodes failed; tried
用户画像项目的数据侧,需要将hive表在HDFS的数据,通过spark程序批次写入ES集群,最近几天做压测,发现spark程序运行到一半就挂掉,日志报错如下:org.apache.spark.util.TaskCompletionListenerException: Connection error (check network and/or proxy settings)- all nod...
2019-09-17 11:10:27 10153
原创 shell中执行命令随笔
1. 需要将命令后台挂起执行,不管命令执行成功与否,脚本继续往下执行nohup 命令 > /dev/null 2>&1 &2. 需要等待命令执行完毕后,脚本才继续往下执行./check_90d_data.sh ${sday} > XXXX.log 2>&13. 脚本中需要进行计算result=$((${XXXX}*1000)...
2019-09-11 20:59:23 895
原创 shell动态循环监控HDFS路径下新分区是否生成的脚本
用户画像项目DataToES环节中,需要在kettle启动之前动态监控${sday}的90d数据是否已经生成,不用公司xcenter的方案如下:每隔5min动态监控HDFS路径下${sday}新分区文件夹是否生成:方案一:${_HADOOP_BIN} fs -text /HDFS路径/${sday}/*00000*|head -10|wc -l监控HDFS路径下文件,查看前10...
2019-09-11 20:50:47 752
原创 shell脚本中变量运算
变量运算用$(())start=123end=$((${start}*1000))echo ${end}-----------------------------123000
2019-09-11 15:11:40 524
原创 curl不打印% Total信息
在shell中使用curl命令操作ES的时候,打印日志会报如下信息 % Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed100 ...
2019-09-11 10:58:24 5203
1ARCGIS工具条-启动窗口及主界面的构成
2020-11-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人