面试时一些大数据量的操作

海量数据处理基本方法:

1、Hash法

散列方法:直接寻址法、取模法、数字分析法、折叠法、平方取中法、除留余数法、随机数法

解决冲突方法:开放地址法、链地址法、再散列法、建立公共溢出区

2、Bit-map法

3、Bloom Filter法

4、数据库优化法

5、倒排索引法

6、外排序法

7、Trie树

8、堆

9、双桶法

10、MapReduce法

经典实例

1、TopK问题:分治法、hash法、最小堆

2、重复问题:位图

3、排序问题:数据库排序法、分治法、位图法

eg:哈希分治法 - 统计海量数据中出现次数最多的前10个IP:(快排思想、维护堆、分块法)

https://www.jianshu.com/p/62f85f53ec16

如何给100亿个数字排序?

https://www.jianshu.com/p/8dc11152f178






评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值