Scrapy框架爬取名人名言网信息——基于css内置选择器

最新推荐文章于 2021-09-01 17:57:31 发布

谷曰十鑫

最新推荐文章于 2021-09-01 17:57:31 发布

阅读量1.5k

点赞数

分类专栏： Python 文章标签： Sctapy框架爬取名人名言 css选择器

本文链接：https://blog.csdn.net/weixin_43636302/article/details/103038430

版权

本文介绍了如何利用Scrapy框架，通过CSS内置选择器爬取名人名言网站上的作者、标签和文本信息。首先在cmd窗口操作，接着在PyCharm中打开并编辑q2项目的spiders和items文件，最终实现数据的导出。

摘要由CSDN通过智能技术生成

问题背景

在这里插入图片描述
目的是将该名人名言网站的作者、标签以及文本信息爬取下来。

实现过程

一、调出cmd窗口

cd /d  所要保存的路径
#q2为新建的文件名
scrapy startproject q2
cd q2
scrapy genspider q2q quotes.toscrape.com
#接下来可直接在cmd窗口中进行测试，也可以到Python编辑器里面进行测试
cd q2
scrapy shell http://quotes.toscrape.com
response.body
sel.xpath("/html/body/div/div[2]/div[1]/div[1]/span[1]/text()")

二、在PyCharm中打开q2文件
在Pycharm中进行测试

#在Pycharm下方的Terminal框中
cd /d 所要保存的路径\q2\q2
scrapy shell http://quotes.toscrape.com
response.body
sel.xpath("/html/body/div/div[2]/div[1]/div[1]/span[1]/text()")

在q2的spiders文件下打开q2q文件，补充相关代码：