- 博客(6)
- 资源 (2)
- 收藏
- 关注
原创 Spark处理RDD,分区数和executor的关系
在代码中将RDD进行了hash重分区成56个partition,RDD中包含从HDFS上读取的4亿条记录,每一行记录存为RDD中的一个元素。所以最终RDD有4亿个元素,56个分区,对应spark程序中56个task,查看任务时显示如下:再结合spark的原理图:共申请了201个executor(Driver端占1个,申请200个executor),总tasks数为56,...
2019-10-31 15:24:52 4041 1
原创 Hive表drop删除表后恢复表的分区数据
如果HDFS配置好回收站的话,drop删除表后可以通过命令恢复表数据,例如回收站HDFS路径如下:/user/hdp_teu_dpd/.Trash/Current/表的HDFS路径如下:/home/hdp_teu_dpd/warehouse/wbdb.db/dw_smart_merge_idmapping/当drop tabledw_smart_merge_idmappi...
2019-10-28 15:19:03 3643
原创 SpringMVC启动jetty报错:org.apache.ibatis.builder.BuilderException
公司接口开发,用的SpringMVC的开发方式,通过接口往mysql表中进行增删改查等功能,启动jetty时,报错语句如下:org.apache.ibatis.builder.BuilderException: Error creating document instance. Cause: org.xml.sax.SAXParseException: The content of ele...
2019-10-22 20:19:32 477
原创 HashMap使用HashMap(int initialCapacity)初始化值的设置原则
新建一个hashMap的时候,可以通过initialCapacity设置hashMap长度的初始化值。Map<String, Object> resultMap = new HashMap<String, Object>(initialCapacity: 5);hashMap源码中initialCapacity的初始值为16,负载因子为0.75;所以一个ha...
2019-10-18 16:17:26 8923 4
原创 ES集群宕机后处理——重新分配shards,负载均衡
ES集群5台机器,由于同时读写导致其中一台机器宕机,原本每天的索引shard数设定为10,这样5台机器每台分配2个shard,但是一旦集群宕机,重启集群后,5号机器宕机导致它上面的shard会转移到其他1-4号机器上。如果此时往ES里写数据,新索引的10个shard就都会分配到5号机器(因为它上面一个shard都没有,ES集群会优先往资源丰富的机器分配shard),如果此时写入数据,请...
2019-10-10 16:09:14 4054
原创 mysql表中3000w条数据去重——利用主键唯一性
场景:需要对mysql数据库中的表A数据去重,一共3个字段:id,tag_en,mapping_id其中id为自增主键,重复数据的tag_en,mapping_id字段一致,如下,需要去除重复数据并且只保留一行记录。因为数据量较大,在navicat中用group by的方式难以实现。实现方法:先建一张结构一致的表create table B like A;然后先把...
2019-10-09 10:47:22 912
1ARCGIS工具条-启动窗口及主界面的构成
2020-11-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人