scrapy
文章平均质量分 59
shadyyy
报错的日常
展开
-
scrapy融合jsl
把settings.py中COOKIES_ENABLED设置为True, 然后在middlerware或spider文件中, 以键值对cookies={} 的形式设置cookie.把settings.py中COOKIES_ENABLED设置为False, 然后在middlerware或spider文件中, 以字符串的形式设置headers中的cookie..........原创 2022-08-18 10:54:13 · 254 阅读 · 0 评论 -
FD的设置和抓取python请求包
1. FD的设置打开FD在工具栏找到 Tools => Options => HTTPS按图示操作到第三步后点击Actions, 选择第一个Trust root certificate, 然后点ok, 重启FD2. 抓取scrapy请求再在工具栏找到 Tools => Options =>Connections查看端口是否为8888(默认就是8888)然后在scrapy请求中加入代理, requests同理.yield scrapy.Request(原创 2021-06-07 14:22:11 · 1162 阅读 · 0 评论 -
scrapy post请求问题
某网站的表单信息有一个值为 (unable to decode value)headers中Content-Type: application/x-www-form-urlencoded我以为是需要编码一下from urllib.parse import urlencodedata = {'name':'查询'}# 使用scrapy自带的post请求方法,将字典直接传入formdata,如果不设置headers Content-type默认的为'application/x-www-form-ur原创 2020-08-05 16:32:59 · 354 阅读 · 0 评论 -
scrapy主动结束爬虫任务
实现原理def __init__(self, crawler): self.crawler = crawler @classmethod def from_crawler(cls, crawler): return cls(crawler) # 结束爬虫 self.crawler.engine.close_spider(spider, 'closespid...原创 2019-08-21 10:46:00 · 2087 阅读 · 0 评论 -
scrapy关于请求带有时间戳链接会失效问题
可以在middleware的process_request方法中修改请求的urldef process_request(self, request, spider): request._set_url(request.url + '&msg=%s' % int(round(time.time() * 1000)))同理也可以在process_response中修改或直接修改响...原创 2019-08-21 11:02:35 · 559 阅读 · 0 评论