Scrapy框架爬取名人名言网信息——基于css内置选择器

本文介绍了如何利用Scrapy框架,通过CSS内置选择器爬取名人名言网站上的作者、标签和文本信息。首先在cmd窗口操作,接着在PyCharm中打开并编辑q2项目的spiders和items文件,最终实现数据的导出。
摘要由CSDN通过智能技术生成

问题背景

在这里插入图片描述
目的是将该名人名言网站的作者、标签以及文本信息爬取下来。
在这里插入图片描述

实现过程

一、调出cmd窗口

cd /d  所要保存的路径
#q2为新建的文件名
scrapy startproject q2
cd q2
scrapy genspider q2q quotes.toscrape.com
#接下来可直接在cmd窗口中进行测试,也可以到Python编辑器里面进行测试
cd q2
scrapy shell http://quotes.toscrape.com
response.body
sel.xpath("/html/body/div/div[2]/div[1]/div[1]/span[1]/text()") 

二、在PyCharm中打开q2文件
在Pycharm中进行测试

#在Pycharm下方的Terminal框中
cd /d 所要保存的路径\q2\q2
scrapy shell http://quotes.toscrape.com
response.body
sel.xpath("/html/body/div/div[2]/div[1]/div[1]/span[1]/text()") 

在q2的spiders文件下打开q2q文件,补充相关代码:


                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值