![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 59
程序猿劝退师
绝对不做愚蠢且懒惰的人
展开
-
hive —— 迁移数据后,hive查表无数据,修复元数据
对于我来说,应对CDH 或者 hadoop 集群迁移; 迁移肯定分几大步: 1、新集群搭建 2、数据迁移 3、新旧集群衔接,下线旧集群 当做第二步的时候,我使用的dictcp sethive.msck.path.validation=ignore原创 2021-05-20 16:09:40 · 1007 阅读 · 0 评论 -
flink —— checkpoint机制
引言 checkpoint 刚接触这个机制的是在spark框架中,spark中Lineage(血统)是spark能快速恢复容错的基本,有cache和persist(都是RDD内存缓存),区别只是在于一个包装,cache只有一个默认的缓存级别MEMORY_ONLY ,而persist可以根据情况设置其它的缓存级别。 而存在内存中,保证局部rdd恢复,但如果整个job挂了,内存中的缓存也就不见了,所以出现了checkpoint机制。 checkpoint与cache和persist方案一样,都是将RDD原创 2021-05-06 16:20:54 · 3175 阅读 · 1 评论 -
hdfs —— 为什么hadoop1块大小要设置成64M,hadoop2设置成128M
总结 128M相对hadoop2开源时的数据传输网络io和磁盘io更匹配 如果公司集群带宽和磁盘io速度更加优秀,完全可以根据实际进行调优,256M、512M等. 这个是一个在大数据集群中一个比较好的调优方向 猜测:hadoop1当时可能处于硬件较落后的时代,64M为当时最优数据传输量级,也有可能当时开源人员未曾考虑这一层。而hadoop2之后考虑这层之后或者应对当时硬件效率更改为128M 论据 1、现在大部分集群节点之间使用千兆网卡,实际数据传输速度大约在100M/s 2、当时磁盘写入也大多原创 2021-04-15 10:48:57 · 940 阅读 · 0 评论 -
flume —— NullPointerException: Expected timestamp in the Flume event headers, but it was null
如题错误: 可能大多人送所这个问题都会告诉你: 修改hdfs-sink: a1.sinks.k1.hdfs.useLocalTimeStamp = true 的确,这么做的确也可以解决上述问题,但你确定这是你想要的结果么? 解释: 首先看错,很明显,event的header中获取timestamp属性为空,就是你sink的时候需要使用timestamp的属性。 一般使用这个属性的场景应该都是 a1.sinks.k1.hdfs.path = hdfs://nameservice/*/原创 2021-03-25 17:17:13 · 894 阅读 · 0 评论