![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
一些面试相关的内容
1emonade
这个作者很懒,什么都没留下…
展开
-
大数据面试-重复元素
大数据背景下寻找重复元素原创 2023-05-25 19:39:09 · 76 阅读 · 1 评论 -
大数据面试-排序
其实我们的目标就是让我们的数据尽可能的均分在分区之中,我们可以通过调整barrier的范围来完成。例如我们在10000-15000的数据量比较大,我们可以调整barrier到[0-80000),[80000-120000),[120000,160000)...从而将数据尽可能的均分。如果我们知道了大致的数据分布,我们就可以较好的处理划分的问题。所以我们可以先对数据进行采样,然后我们对采样的数据进行排序,再根据采样的结果来作为我们划分barrier的依据。通过这种办法我们可以较好的避免数据倾斜。原创 2023-05-25 19:36:51 · 37 阅读 · 1 评论