![](https://img-blog.csdnimg.cn/20210424212446418.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据遇到的问题
文章平均质量分 55
大数据遇到的问题
Colin_lqk
ETL,数据分析,大数据,数据仓库,Hadoop
展开
-
JSONObject导包导不对,一招解决
在pom <dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson</artifactId> <version>1.2.33</version> </dependency>原创 2021-06-21 11:56:16 · 600 阅读 · 0 评论 -
数据倾斜问题
数据倾斜问题一、什么是数据倾斜二、数据倾斜的危害三、数据倾斜的现象四、数据倾斜的原因五、问题发现与定位1、通过 Spark Web UI2、通过 key 统计六、如何缓解数据倾斜基本思路思路1. 过滤异常数据思路2. 提高 shuffle 并行度思路3. 自定义 Partitioner思路4. 拆分 join 再 union思路5. 大表 key 加盐,小表扩大 N 倍 jion思路6. map 端先局部聚合思路7. 加盐局部聚合 + 去盐全局聚合七、Hadoop 中的数据倾斜 一、什么是数据倾斜 对 Sp原创 2021-06-04 14:59:48 · 277 阅读 · 0 评论 -
Redis常见问题之缓存穿透、击穿、雪崩、预热、更新、降级及对应的解决方案
Redis Redis是高性能的分布式内存数据库,对于内存数据库经常会出现下面几种情况,也经常会出现在Redis面试题中:缓存穿透、缓存击穿、缓存雪崩、缓存预热、缓存更新、缓存降级。本文分别介绍这些概念以及对应的解决方案。 缓存穿透 当查询Redis中没有的数据时,该查询会下沉到数据库层,同时数据库层也没有该数据,当这种情况大量出现或被恶意攻击时,接口的访问全部透过Redis访问数据库,而数据库中也没有这些数据,我们称这种现象为"缓存穿透"。缓存穿透会穿透Redis的保护,提升底层数据库的负载压力,同时这类原创 2020-09-09 15:51:33 · 645 阅读 · 0 评论 -
如何优化HDFS小文件的方法
HDFS小文件优化方法 HDFS小文件弊端 HDFS上每个文件都要在namenode上建立一个索引,这个索引的大小约为150byte,这样当小文件比较多的时候,就会产生很多的索引文件,一方面会大量占用namenode的内存空间,另一方面就是索引文件过大是的索引速度变慢。 解决的方式 (1)Hadoop本身提供了一些文件压缩的方案。 (2)从系统层面改变现有HDFS存在的问题,其实主要还是小文件的合并,然后建立比较快速的索引。 Hadoop自带小文件解决方案 (1)Hadoop Archive: 是一个高效地原创 2020-07-13 09:40:50 · 145 阅读 · 0 评论