人民日报语料库抓取python实现（二）--多线程

最新推荐文章于 2024-10-29 10:34:34 发布

重回成都

最新推荐文章于 2024-10-29 10:34:34 发布

阅读量2.5k

点赞数

分类专栏： python NLP web爬虫文章标签： python BeautifulSoup4 爬虫多线程语料库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhdgk19871218/article/details/45918445

版权

本文介绍了使用Python的BeautifulSoup4库和多线程技术抓取人民日报语料库的方法。通过设立两个队列shareMonthQueue和shareReportQueue分别存储不同URL，以提高爬取效率。虽然可能存在代码复杂度增加的问题，但多线程有助于处理大量IO操作。

摘要由CSDN通过智能技术生成

由于有大量的IO，多线程可以提高爬取的效率。出于不同队列存储不同url和对于爬虫进行分工的初衷，这里实现了两个队列shareMonthQueue和shareReportQueue。其中shareMonthQueue存储所有月份初始url和包含的其他页面（一个月份有很多page，例：1946年5月包含30个page）。shareReportQueue存储所有新闻的url。两个队列有其专用的爬虫monthSpider和reportSpider。师兄说：从操作系统的角度来看，两个队列是多此一举，增加代码复杂度，并不提高效率。我想了想，师兄说的对。

上代码：

#coding:utf-8
#author:zhangyang
#date:2015-5-21
#此程序用于爬取人民日报下的数据资源。主页面需要提取包括1946年到2003年之间所有月份
#次级页面是各个月份的所有报道
#末级页面是报道内容
#使用多线程提高爬取效率

import urllib2,bs4,os,re
from time import clock
import threading,Queue

#关于bs4解析url的方法可以参看：http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html


starturl="http://rmrbw.info/"
shareMonth

最低0.47元/天解锁文章

重回成都 CSDN认证博客专家 CSDN认证企业博客

码龄14年

8: 原创

31万+: 周排名

212万+: 总排名

8万+: 访问

: 等级

485: 积分

24: 粉丝

8: 获赞

4: 评论

22: 收藏

私信

关注

热门文章

分类专栏

python 5篇
web爬虫 2篇
分词 2篇
NLP 6篇
概率 1篇
linux 1篇

最新评论

人民日报语料库抓取python实现
三箱矿泉水: 请问是使用python几写的
ubuntu下安装anaconda
歌古道: 最后有用
ubuntu下安装anaconda
hpuhjl: [reply]flyfrommath[ 在终端输入python，如果显示的是不是anaconda，那就是没装好，或者时环境变量没加上
ubuntu下安装anaconda
banlucainiao: 博主，请教一下：为什么我按照你的方法安装好了Anaconda,import numpy等库时总是报错，应该怎么处理啊？错误信息如下： >>> import numpy Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/home/jkx/.local/lib/python2.7/site-packages/numpy/__init__.py", line 163, in <module> from . import random File "/home/jkx/.local/lib/python2.7/site-packages/numpy/random/__init__.py", line 99, in <module> from .mtrand import * ImportError: /home/jkx/.local/lib/python2.7/site-packages/numpy/random/mtrand.so: undefined symbol: PyFPE_jbuf >>>

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。