测试
目的是使用scrapy爬取段子库单品类全数据。
结构
scrapy能够访问和数据分析,问题在于怎么去到下一页再次调用。一是手动将分页网址粘贴到start_urls中,一是使用手动发送请求。
- 创建测试工程,创建爬虫文件,
settings.py
三步修改
- 对段子库中对应页码网址的数据进行爬取解析
- 修改
items.py
,回到爬虫文件导入模块并提交管道
settings.py
里将item打开
- 页码递归,限定条件
手动请求的方式(get/post)
yield scrapy.Request(url,callback):GET
callback指定解析函数,用于解析数据
yield scrapy.FormRequest(url,callback,formdata):POST
formdata字典,请求参数,在这里不能使用request中的data=data,formdata是制定参数
start_urls列表中的url会被自动进行get请求,是因为列表中的url其实是被start_requests这个父类方法实现的get请求发送
def start_requests(self):
for u