Scrapy框架实现数据采集的详细步骤

需求描述

本项目目标是使用Scrapy框架从宁波大学经济学院网站(nbufe.edu.cn)爬取新闻或公告详情页的内容。具体需求如下:

1、通过遍历多个页面(共55页)构建翻页URL。

2、使用scrapy自带的xpath从每页的HTML结构中提取新闻或公告详情页的链接。

3、对每个详情页,使用BeautifulSoup解析HTML并提取以下信息:

标题、来源、作者、时间、内容、撰稿、摄影、审核。最终将所有提取的信息存储在excel中。

创建scrapy爬虫项目

  1. 首先新建一个新的爬虫项目:

Cd 进入创建位置,scrapy genspider 爬虫名称+爬虫网站 创建新的爬虫项目

  1. scrapy项目文件

目录结构中的文件说明如下:

​ spiders(文件夹):用于创建爬虫文件,编写爬虫规则。

​ __ init __文件:初始化文件。

​ items文件:用于数据的定义,可以寄存处理后的数据。

​middlerwares文件:定义爬取时的中间件,其中包括SpiderMiddleware(爬虫中间件)、DownloaderMiddleware(下载中间件)

pipelines文件:用于实现清洗数据、验证数据、保存数据。

settings文件:整个框架的配置文件,主要包含配置爬虫信息,请求头、中间件等。

scrapy.cfg文件:项目部署文件,其中定义了项目等配置文件路径等相关信息。

爬虫制作

zyj.py文件:爬取数据

(1)Spider定义和配置:

name属性定义爬虫的名字为“zyj”。

start_urls属性包含了爬虫的初始URL列表,这里是宁波财经学院的主页。

(2)start_requests方法:

该方法用来生成初始请求。通过一个循环,生成从第1页到第55页的请求URL,并通过scrapy.Request发送请求。

(3)parse方法:

这个方法是对每个请求返回的响应进行处理。首先输出响应内容以供调试。

使用XPath选择器来找到包含目标数据的div标签,调试输出找到的div数量。遍历每个div,构造详情页的URL,并生成请求,同时将请求传递给parse_zyj方法进行详细处理。

(4)parse_zyj方法:

该方法负责解析详情页的内容。首先创建一个zyjItem实例来存储抓取的数据。使用BeautifulSoup解析响应的HTML内容。提取详情页的标题、来源、作者、时间、内容等信息,并处理可能出现的数据缺失情况,输出相应的调试信息。通过对特定标签的进一步解析,提取内容创作人、摄影和审核信息。如果解析失败,则将相应字段设为“N/A”。最后,输出解析后的item,并通过yield将其传递给Scrapy的Item Pipeline。

(5)网页定位

右键点击审查,定位标题列表页的标题以及详情页地址。如下图所示

定位详情页标题及文章来源作者时间等,div属性class的值为main_show_bt md

定位详情页内容,div属性class的值为main_show_nr md

最后使用beautifulsoup解析详情页,提取内容等信息。详细代码如下

item.py文件:

setting.py文件:将下面的语句解开注释。设置了默认的请求头(HTTP headers),用于每次请求时附加到HTTP请求中。主要包括以下两个字段:

Accept: 指定客户端可以处理的内容类型。text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8表示客户端可以接受HTML、XHTML、XML格式的响应,权重分别为0.9和0.8,表示HTML、XHTML和XML优先级较高。

User-Agent: 用于标识请求的客户端(浏览器)。这里设置了一个常见的浏览器用户代理字符串,模拟的是Google Chrome浏览器。这可以帮助避免一些网站因为识别到爬虫而进行的访问限制。

cookies: 添加了一个Cookies字段,用于在请求中携带特定的Cookies信息。这可能用于保持会话或通过某些网站的防爬虫措施。

另外还配置了Scrapy的项目管道(Item Pipelines),用于处理抓取到的项目(items)。配置的结构为字典形式,键为管道的路径,值为管道的优先级。zyj.pipelines.ZyjPipeline: 这是定义在项目中的一个管道类,路径是zyj.pipelines中的ZyjPipeline类。该管道类负责处理、清理或存储爬虫抓取到的数据。

300: 这是该管道的优先级。Scrapy允许定义多个管道,优先级数值越低,优先级越高。这里设置的300表示中等优先级。

Pipeline.py文件:将数据进行处理并保存到zyj.xlsx文件

  1. 运行。通过编程的方式启动名为zyj的Scrapy爬虫,等效于在命令行手动输入scrapy crawl zyj命令。这种方法适用于在Python脚本中启动爬虫,可以方便地集成到其他Python代码中,或用于调试和自动化任务。

  1. 结果

  • 9
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值