web爬虫
文章平均质量分 80
重回成都
这个作者很懒,什么都没留下…
展开
-
人民日报语料库抓取python实现
最近需要抓取语料库,在一个NLP的论坛上看到有人民日报的1946到2003的所有资料。准备把这些资料抓取下来(虽然有点老了,但是聊胜于无,哪位高人知道更好的来源请告知)。程序是用python写的,主要用到bs4解析模块。由于是新手没有使用多线程,事实证明效率果然不快,因为有大量的数据IO。等看完多线程爬虫再实现一个多线程版本的。先将就用吧。在windows下运行的同学,请把程序中文件夹和文件名原创 2015-05-20 10:54:01 · 8388 阅读 · 1 评论 -
人民日报语料库抓取python实现(二)--多线程
由于有大量的IO,多线程可以提高爬取的效率。出于不同队列存储不同url和对于爬虫进行分工的初衷,这里实现了两个队列shareMonthQueue和shareReportQueue。其中shareMonthQueue存储所有月份初始url和包含的其他页面(一个月份有很多page,例:1946年5月包含30个page)。shareReportQueue存储所有新闻的url。两个队列有其专用的爬虫mon原创 2015-05-22 16:11:11 · 2468 阅读 · 0 评论