![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
scrapy学习笔记
文章平均质量分 92
破法者之终结
hg111
展开
-
python分布式爬虫scrapy_redis
安装 scrapy_redispip install scrapy-redisScrapy-Redis分布式策略Master端(核心服务器) :我使用的虚拟机系统为linux,搭建一个Redis数据库,不负责爬取,只负责url指纹判重、Request的分配,以及数据的存储Slaver端(爬虫程序执行端) :我使用的win10,负责执行爬虫程序,运行过程中提交新的Request给Maste...原创 2019-06-05 18:16:24 · 348 阅读 · 0 评论 -
scrapyd部署分布式爬虫
环境安装使用scrapyd和scrapyd_client进行部署,过程为用户在客户端使用scrapyd_client将爬虫项目通过命令部署到服务器端scrapyd。1.服务器端:安装scrapyd:pip3 install scrapyd安装完成后,在python/scrips下会有一个scrapy.exe,这时cmd输入scrapyd即可启动服务,在客户端电脑上即可通过ip:680...原创 2019-06-28 14:14:42 · 261 阅读 · 0 评论 -
scrapy爬取微博移动版(一)
分析页面通过对微博页面json的查看,发现:个人页面request url为 https://m.weibo.cn/profile/info?uid={uid}关注页面request url为 https://m.weibo.cn/api/container/getIndex?containerid=231051_-_followers_-_{uid}&page={page}粉丝页...原创 2019-06-24 19:57:08 · 644 阅读 · 0 评论 -
docker打包scrapyd镜像实现批量部署
应用背景在实现分布式爬虫时,由于主机数量一般较多,使用手动安装scrapyd服务以及python环境较为繁琐又容易出现版本不一致等问题,docker对接scrapyd很好的解决了这一难题。实现过程docker的安装:1.主机端:本机使用的win10系统,在官网上下载太慢,选择https://dn-dao-github-mirror.qbox.me/docker/install/windo...原创 2019-07-01 16:53:45 · 947 阅读 · 0 评论 -
replace()和re.sub() strip() 用法
replace()语法:str.replace ( old, new, max )参数:old – 将被替换的子字符串。new – 新字符串,用于替换old子字符串max – 可选字符串, 替换不超过 max 次例子:a='i am a pig'b=a.replace('am','was')print(a)print(b)输出结果:`i am a pigi ...原创 2019-06-11 14:38:18 · 430 阅读 · 0 评论 -
scrapy学习之使用selector选择器提取信息
习惯于使用beautifulsoup提取信息后,在学习过程中发现大佬都爱用selector选择器,所以学习一下使用选择器crapy中调用选择器的方法非常的简单,下面我们从实例中进行学习。以博客园首页的信息作为例子,演示使用选择器抓取数据,下图是首页的html信息,我们下面就是抓取标题,链接,阅读数,评论数。import scrapyfrom scrapy.selector import...原创 2019-06-04 15:10:20 · 661 阅读 · 0 评论 -
scrapy框架之crawlspider
spider.py# 项目名为wxapp,爬虫名为wxapp_spider.pyfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Rulefrom wxapp.items import WxappItem # 导入items中定义好的数据类,方便json格式写入c...原创 2019-06-04 14:47:46 · 212 阅读 · 0 评论 -
scrapy 爬取图片并保存
爬取煎蛋网(http://jandan.net)的图片jiandanSpider.pyimport scrapyfrom jiandan.items import JiandanItemfrom scrapy.crawler import CrawlerProcessclass jiandanSpider(scrapy.Spider): name = 'jiandan' ...转载 2019-06-06 16:03:24 · 320 阅读 · 0 评论 -
douyin api
1原创 2019-07-24 12:10:09 · 1516 阅读 · 0 评论