python
文章平均质量分 73
重回成都
这个作者很懒,什么都没留下…
展开
-
人民日报语料库抓取python实现
最近需要抓取语料库,在一个NLP的论坛上看到有人民日报的1946到2003的所有资料。准备把这些资料抓取下来(虽然有点老了,但是聊胜于无,哪位高人知道更好的来源请告知)。程序是用python写的,主要用到bs4解析模块。由于是新手没有使用多线程,事实证明效率果然不快,因为有大量的数据IO。等看完多线程爬虫再实现一个多线程版本的。先将就用吧。 在windows下运行的同学,请把程序中文件夹和文件名原创 2015-05-20 10:54:01 · 8461 阅读 · 1 评论 -
python 提高效率的几个小技巧
1.1. 最常见 一个最常见的速度陷坑(至少是俺在没看到网上这篇介绍时陷进去 过好些次的) 是: 许多短字串并成长字串时, 大家通常会用: Toggle line numbers 1 shortStrs = [ str0, str1, ..., strN] 2 #N+1个字串所组成的数列 3 longStr = ” 4 for s in shortStrs:转载 2015-05-21 10:37:25 · 920 阅读 · 0 评论 -
结巴分词1.8.2版本源代码解析(一)
概要说明:结巴分词是基于python的开源分词工具。在其根目录下的结构为 . |--analyse |--finalseg |--posseg |--__init__.py |--__main__.py |--_compat.py |--dict.txt 其中analyse是对分词结果进行分析的文件夹,提供了TF-IDF算法和textrank算法。finalseg提供了vertb原创 2015-05-27 15:27:26 · 2544 阅读 · 0 评论 -
人民日报语料库抓取python实现(二)--多线程
由于有大量的IO,多线程可以提高爬取的效率。出于不同队列存储不同url和对于爬虫进行分工的初衷,这里实现了两个队列shareMonthQueue和shareReportQueue。其中shareMonthQueue存储所有月份初始url和包含的其他页面(一个月份有很多page,例:1946年5月包含30个page)。shareReportQueue存储所有新闻的url。两个队列有其专用的爬虫mon原创 2015-05-22 16:11:11 · 2531 阅读 · 0 评论 -
结巴分词源代码解析(二)
本篇分两部分,一、补充说明动态规划求最大概率路径的过程;二、使用viterbi算法处理未登录词。 一、动态规划求最大概率路径补充 从全模式中看出一句话有多种划分方式,那么哪一种是好的划分方式,最大概率路径认为,如果某个路径下词的联合概率最大,那么这个路径为最好的划分方式。 (个人认为这种思想是有缺陷的,我们知道每一个词的出现频率是一个较小的小数,小数相乘结果会受到小数的个数较大影响,原创 2015-05-31 17:22:43 · 2316 阅读 · 0 评论 -
ubuntu下安装anaconda
1、 到官网http://continuum.io/downloads下载anaconda。 选择linux64-bit-python2.7 2、 安装anaconda,在终端输入:cd ~/Downloads;bash Anaconda-2.2.0-linux-x86_64.sh 回车后,是许可文件,接收许可,anaconda将安装在~/anaconda下:原创 2015-06-15 13:12:14 · 60486 阅读 · 3 评论