自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 50万邮件文本分域检索与查询的python实现(二)

上一篇里提到了构建目录树的弱智方法,当时只提取了146个人中的2个人作为测试集,也因此就认为所有人文件夹深度都为3。后来对所有的人文档遍历后,再进行倒排构建的时候程序报错,错误原因是当前生成的路径是一个文件夹。随后打印了一些信息,发现有的人文档深度远不止3,而有的人文档深度仅为2,所以把程序改了一下,采用递归的方式遍历所有深度的文件:def find_file(filedir,fi

2012-04-29 15:44:22 505

原创 50万邮件文本分域检索与查询的python实现(一)

( --原创,转载请声明-- )# 把最近用python写的一个邮件分区域检索和查询的实现贴出来# 课余时间不多,没来得及考虑效率问题,思路较简单。so,有更高效的方法请不吝赐教~# 轻拍~一、构建索引目录邮件数据集:1.3G,约50万个邮件文本。目录树层次关系如下:一级目录:有146个文件夹,对应146个人二级目录:每个人的文件夹下有多

2012-04-23 15:59:12 1105

原创 appspot是棍了还是棍了

前一阵子偶然翻了本介绍google API的书,觉得挺有趣,决定动手一试。过程还是挺曲折,China Mobile明明列在google支持的运营商列表中,可不知道为什么n天过去了,就是没有收到验证码,后来度娘告诉我,大家都存在这个问题,好吧,于是填了问题反馈,留了邮件,进入了漫长的等待。再后来,由于连写了三天信息检索的作业,实验室又出去玩了两天,也就非常自然地,把这件事忘掉了。。。

2012-04-23 13:56:00 611

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除