scrapy
裸睡的雨
菜鸟自学中
展开
-
爬取知乎碰到的问题-------------------------2、 关于碰到mysql的1064错误
基本这个错误都是因为SQL语句错误,所以仔细看SQL语句。 刚开%S上没有加引号,所以报错。再就是复制到mysql里试试。一试基本错误就出来了原创 2019-01-16 18:06:14 · 167 阅读 · 0 评论 -
爬取知乎碰到的问题-------------------------1、HTTP status code is not handled or not allowed
HTTP status code is not handled or not allowed解决:只需在setting中添加HTTPERROR_ALLOWED_CODES = [错误码]原创 2019-01-16 17:58:42 · 2292 阅读 · 1 评论 -
爬取知乎碰到的问题------------------4、使用redis时碰到的错误:redis.exceptions.ResponseError
使用scrapy-redis爬取知乎,当redis中存的数据量多的时候碰到的问题。解决办法参考:https://blog.csdn.net/song19890528/article/details/38536871这个最好还是用redis集群比较好,可以去参考崔庆才博客https://cuiqingcai.com/6058.html2019-01-31 01:11:46 [twiste...原创 2019-02-01 00:27:58 · 1244 阅读 · 0 评论 -
爬取知乎------使用分布式scrapy-redis
上次分享的那个增量爬取方式,一直没找到Berkeley DB在windows上如何安装,有解决的帮忙指导。找资料的时候发现使用分布式scrapy-redis可以实现相同的功能。因为这个库可以通过redis实现去重与增量爬取,爬虫停止以后下次运行会接着上次结束的节点继续运行,当然这就是在请求大量数据的时候,单机不能满足要求的时候使用。缺点是,Scrapy-Redis调度的任务是Request对象...原创 2019-01-24 10:10:43 · 227 阅读 · 0 评论 -
爬取知乎 -----------------------------使用scrapy-deltafetch实现爬虫增量去重
https://blog.csdn.net/zsl10/article/details/52885597/scrapy-deltafetch简介scrapy-deltafetch通过Berkeley DB来记录爬虫每次爬取收集的request和item,当重复执行爬虫时只爬取新的item,实现增量去重,提高爬虫爬取性能。Berkeley DB简介Berkeley DB是一个嵌入式数据库...转载 2019-01-17 11:05:01 · 427 阅读 · 0 评论 -
使用scrapy+splash+Lua脚本实现滚轮动态加载爬取CSDN
爬取CSDN的时候发现,csdn需要一直使用鼠标滑轮下拉,动态加载使用Lua脚本,详细解释见官方文档https://splash.readthedocs.io/en/stable/function main(splash, args) splash:go(args.url) local scroll_to = splash:jsfunc("window.scrollTo")...原创 2018-09-28 15:56:57 · 4630 阅读 · 8 评论 -
CentOS7在python3的基础上安装scrapy
安装python3centos7安装python3的步骤需要做pip3和python3的软连接,这样python3和pip3就都能用了ln -s /usr/local/python3/bin/pip3 /usr/bin/pip3直接执行pip3 install scrapy可能会报下面的错误 Could not find a version that satisfi...原创 2018-10-12 18:05:43 · 256 阅读 · 0 评论 -
scrapy中xpath将某一个节点下的文本内容串起来
在爬取数据的时候碰到这样的情况想要拿到红框里的东西源码里面显示的是这样如果直接用text(),只能拿到的是单个li中的字符串这就需要使用xpath中的string()函数,string函数可以将ul底下的字符串全部获取出来,但是string中只能传递单个节点所以,直接用string函数获取出来,使用截取字符串的方式,截取,就能获取到每一个点更多内容关注我的微...原创 2018-10-11 09:52:28 · 2304 阅读 · 4 评论 -
安装splash及解决点击Docker出现windows 正在查找bash.exe。如果想亲自查找文件,请点击“浏览”的问题
chromedriver下载地址:http://chromedriver.storage.googleapis.com/index.htmltoolbox下载地址:https://get.daocloud.io/toolbox/安装splash,需要先安装Docker,第一步:下载toolbox,地址在上面点击下一步直到完成。点击桌面的快捷方式可能会有下面的问题解决点击Dock...原创 2018-09-26 11:05:29 · 946 阅读 · 0 评论 -
关于爬虫模拟美团登陆后,解决302重定向的问题的方法
帮忙测测我的博客,别太夸张,谢谢http://123.207.61.85:6789/在使用requests中的方法模拟登陆,没有用scrapy中本来的方法。self.session.get(self.get_url, data=post_data, headers=self.headers)登陆之后去请求下一个链接的时候,就会出现下面的错误scrapy DEBUG Redir...原创 2018-09-04 17:32:04 · 10300 阅读 · 7 评论 -
爬取知乎碰到的问题-----------------------3、关于url中出现sign的解决办法
2019-01-16 18:08:37 [scrapy.core.scraper] ERROR: Spider error processing <GET https://www.zhihu.com/signin?next=http%3A%2F%2Fwww.zhihu.com%2Fpeople%2Fbantys> (referer: https://zhihu.com/people...原创 2019-01-16 18:11:23 · 2992 阅读 · 4 评论