题目
如何统计出英语中最常见的100万个二元组?
思路
使用爬虫收集大量的英语资料
用所有单词去除作为二元组无意义的单词后(比如the,a),制作一个哈希表 H
对于每一个英语资料,统计其中二元组的出现频率,存储于稀疏方阵 M中.M由H的key也就是单词作为行与列.
每找到一个二元组,就分别把两个元素输入哈希函数得到的两个值就是矩阵的行数与列数,添加到M的三元组,值+1.
全部统计完成之后把所有M相加,找到最大的前100个值,根据行列信息在H中得到相应的二元英语词组。
如何统计出英语中最常见的100万个二元组?
使用爬虫收集大量的英语资料
用所有单词去除作为二元组无意义的单词后(比如the,a),制作一个哈希表 H
对于每一个英语资料,统计其中二元组的出现频率,存储于稀疏方阵 M中.M由H的key也就是单词作为行与列.
每找到一个二元组,就分别把两个元素输入哈希函数得到的两个值就是矩阵的行数与列数,添加到M的三元组,值+1.
全部统计完成之后把所有M相加,找到最大的前100个值,根据行列信息在H中得到相应的二元英语词组。