大数据面经收集
记录一下自己的学习过程,方便回顾
Long.JK
这个作者很懒,什么都没留下…
展开
-
大数据量处理方法大总结
一、Bloom filter适用范围: 可以用来实现数据字典,进行数据的判重,或者集合求交集原理: 位数组+k个独立hash函数。将hash函数对应的值的位数组置1,查找时如果发现所有hash函数对应位都是1说明存在,很明显这个过程并不保证查找的结果是100%正确的。同时也不支持删除一个已经插入的关键字,因为该关键字对应的位会牵动到其他的关键字。确定参数: 如何根据输入元素个数n...原创 2020-04-08 15:18:36 · 1471 阅读 · 0 评论 -
大数据场景经典问题
1、海量ip数据,取频率最高(种类有限)具体问题: 从海量日志中提取出某日访问次数最多的那个IP。取模(可选)+hash。因为IP的数目是有限的,最多2^32个,可以考虑使用hash将ip直接存入内存,然后进行统计。方案: IP逐个写入到一个大文件中。IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出...原创 2020-04-08 11:47:50 · 974 阅读 · 0 评论 -
大数据学习之问题解决+经验+调优方法整理(持续更新)
文章目录1 Hadoop1.1 MapReduce执行速度过慢1.2 Yarn节点负载不均衡1.3 Yarn节点上任务数太多,资源利用率太高1.4 Hdfs参数调优1.5 目录配置1.6 Hadoop宕机(项目遇到)2 HBase2.1 优化方法3 Hive3.1 Hive数据倾斜3.2 Tez引擎4 Mysql4.1mysql utf-8 超过字节数5 Redis5.1 缓存穿透、缓存雪崩、缓存...原创 2020-03-20 16:58:34 · 1378 阅读 · 0 评论