- 博客(3)
- 收藏
- 关注
原创 50万邮件文本分域检索与查询的python实现(二)
上一篇里提到了构建目录树的弱智方法,当时只提取了146个人中的2个人作为测试集,也因此就认为所有人文件夹深度都为3。后来对所有的人文档遍历后,再进行倒排构建的时候程序报错,错误原因是当前生成的路径是一个文件夹。随后打印了一些信息,发现有的人文档深度远不止3,而有的人文档深度仅为2,所以把程序改了一下,采用递归的方式遍历所有深度的文件:def find_file(filedir,fi
2012-04-29 15:44:22 505
原创 50万邮件文本分域检索与查询的python实现(一)
( --原创,转载请声明-- )# 把最近用python写的一个邮件分区域检索和查询的实现贴出来# 课余时间不多,没来得及考虑效率问题,思路较简单。so,有更高效的方法请不吝赐教~# 轻拍~一、构建索引目录邮件数据集:1.3G,约50万个邮件文本。目录树层次关系如下:一级目录:有146个文件夹,对应146个人二级目录:每个人的文件夹下有多
2012-04-23 15:59:12 1105
原创 appspot是棍了还是棍了
前一阵子偶然翻了本介绍google API的书,觉得挺有趣,决定动手一试。过程还是挺曲折,China Mobile明明列在google支持的运营商列表中,可不知道为什么n天过去了,就是没有收到验证码,后来度娘告诉我,大家都存在这个问题,好吧,于是填了问题反馈,留了邮件,进入了漫长的等待。再后来,由于连写了三天信息检索的作业,实验室又出去玩了两天,也就非常自然地,把这件事忘掉了。。。
2012-04-23 13:56:00 611
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人