《计算之魂》练习题 2 如何统计出英语中最常见的100万个二元组

题目

如何统计出英语中最常见的100万个二元组?

思路

使用爬虫收集大量的英语资料

用所有单词去除作为二元组无意义的单词后(比如the,a),制作一个哈希表 H

对于每一个英语资料,统计其中二元组的出现频率,存储于稀疏方阵 M中.M由H的key也就是单词作为行与列.

每找到一个二元组,就分别把两个元素输入哈希函数得到的两个值就是矩阵的行数与列数,添加到M的三元组,值+1.

全部统计完成之后把所有M相加,找到最大的前100个值,根据行列信息在H中得到相应的二元英语词组。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值