2019年10月_攻城狮Kevin

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Spark处理RDD，分区数和executor的关系

在代码中将RDD进行了hash重分区成56个partition，RDD中包含从HDFS上读取的4亿条记录，每一行记录存为RDD中的一个元素。所以最终RDD有4亿个元素，56个分区，对应spark程序中56个task，查看任务时显示如下：再结合spark的原理图：共申请了201个executor（Driver端占1个，申请200个executor），总tasks数为56，...

2019-10-31 15:24:52 4041 1

原创 Hive表drop删除表后恢复表的分区数据

如果HDFS配置好回收站的话，drop删除表后可以通过命令恢复表数据，例如回收站HDFS路径如下：/user/hdp_teu_dpd/.Trash/Current/表的HDFS路径如下：/home/hdp_teu_dpd/warehouse/wbdb.db/dw_smart_merge_idmapping/当drop tabledw_smart_merge_idmappi...

2019-10-28 15:19:03 3643

原创 SpringMVC启动jetty报错：org.apache.ibatis.builder.BuilderException

公司接口开发，用的SpringMVC的开发方式，通过接口往mysql表中进行增删改查等功能，启动jetty时，报错语句如下：org.apache.ibatis.builder.BuilderException: Error creating document instance. Cause: org.xml.sax.SAXParseException: The content of ele...

2019-10-22 20:19:32 477

原创 HashMap使用HashMap(int initialCapacity)初始化值的设置原则

新建一个hashMap的时候，可以通过initialCapacity设置hashMap长度的初始化值。Map<String, Object> resultMap = new HashMap<String, Object>(initialCapacity: 5);hashMap源码中initialCapacity的初始值为16，负载因子为0.75；所以一个ha...

2019-10-18 16:17:26 8923 4

原创 ES集群宕机后处理——重新分配shards，负载均衡

ES集群5台机器，由于同时读写导致其中一台机器宕机，原本每天的索引shard数设定为10，这样5台机器每台分配2个shard，但是一旦集群宕机，重启集群后，5号机器宕机导致它上面的shard会转移到其他1-4号机器上。如果此时往ES里写数据，新索引的10个shard就都会分配到5号机器（因为它上面一个shard都没有，ES集群会优先往资源丰富的机器分配shard），如果此时写入数据，请...

2019-10-10 16:09:14 4054

原创 mysql表中3000w条数据去重——利用主键唯一性

场景：需要对mysql数据库中的表A数据去重，一共3个字段：id，tag_en，mapping_id其中id为自增主键，重复数据的tag_en，mapping_id字段一致，如下，需要去除重复数据并且只保留一行记录。因为数据量较大，在navicat中用group by的方式难以实现。实现方法：先建一张结构一致的表create table B like A;然后先把...

2019-10-09 10:47:22 912

1ARCGIS工具条-启动窗口及主界面的构成

1ARCGIS工具条-启动窗口及主界面的构成，1ARCGIS工具条-启动窗口及主界面的构成，1ARCGIS工具条-启动窗口及主界面的构成

2020-11-19

win10下编译过的hadoop2.7.2 jar包

win10下编译过的hadoop2.7.2 jar包，配置hadoop客户端环境必备

2018-11-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人