![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫-Scrapy
文章平均质量分 55
荆棘谷三季稻
这个作者很懒,什么都没留下…
展开
-
爬虫-Scrapy(四) pipeline将数据存储至mysql库
1. mysql库环境准备a.服务器,准备一台linux服务器,可以自己机器上装个虚拟化软件,也可以连公司的闲置服务器或者租赁云服务器,不贵的。b.mysql,安装的5.7,官网应该有8了,但5.7还是最普遍的版本。c.Navicat for Mysql,非常好用的mysql客户端工具。安装过程省略,安装完成后新建一个库,起名spider,然后在新建一个表,起名book,准备接收数据用。建表脚本:CREATE TABLE book( id INT PRIMARY KEY AUTO_INCREM原创 2021-03-06 17:41:58 · 976 阅读 · 0 评论 -
爬虫-Scrapy(三) 翻页的实现
1. 翻页的实现上一篇实现了单页的爬取,再加3行代码就可以实现翻页了。基本思路是查找页面中‘下一页’按钮对应的href地址,然后回调parse方法实现循环,直至找不到’下一页’的链接为止。QiubaiSpider.pyimport scrapyimport refrom scpy1.items import Scpy1Itemclass Qiubai1Spider(scrapy.Spider): name = 'qiubai1' allowed_domains = ['qiu原创 2021-03-06 17:29:05 · 2986 阅读 · 0 评论 -
爬虫-Scrapy (十一) 分布式爬虫 scrapy 转 scrapy-redis 详解
安装scrapy-redis原创 2021-03-01 20:39:35 · 353 阅读 · 0 评论 -
爬虫-Scrapy(二) 爬取糗百笑话-单页
1. Scrapy 设置文件修改配置文件就是项目根路径下的 settings,py ,改下面的配置信息a.遵循人机协议设置成false,否则基本啥也爬不到# Obey robots.txt rulesROBOTSTXT_OBEY = Falseb. 设置ua,不然大部分网址是爬不到的# Crawl responsibly by identifying yourself (and your website) on the user-agentUSER_AGENT = 'Mozilla/5.0原创 2021-02-12 00:24:12 · 434 阅读 · 0 评论 -
爬虫-Scrapy (十) 搭建ip代理池
每一个爬虫工作者都应该有一个ip池,就像一、找到一个ip代理提供商提供ip代理的服务商很多,基本都会先提供些不稳定的免费ip,然后引导你消费,我们这次二、抓取ip三、过滤有效ip四、入库1、从代理网站(如:西刺代理、快代理、云代理、无忧代理)爬取代理IP;2、验证代理IP的可用性(使用代理IP去请求指定URL,根据响应验证代理IP是否生效);3、抓取在《Python爬虫代理池搭建》一文中我们已经使用Python的 requests 模块简单实现了一个IP代理池搭建,但是爬取速度较慢。由于西原创 2021-02-11 16:21:00 · 3387 阅读 · 2 评论 -
爬虫-Scrapy (五) 爬取美女图片
Scrapy 框架的piplelines下提供了现在图片和视频的类,这使得我们将页面中的图片下载到本地非常方便。1.寻找目标百度搜索‘美女’,就可以找到很多有美女图片的网站,这里不贴地址了,反正很多。我找个是这样个的一个网站我们按F12看下页面源码结构非常清晰,我们的目标就是爬取页面中的图片,并按主题保存到本地,动手。2.item定义2个属性,主题名称和图片地址列表。图片Itemclass ImageItem(scrapy.Item): topic_name = scrapy.F原创 2021-02-03 11:23:11 · 408 阅读 · 0 评论 -
爬虫-Scrapy(九)Scrapy使用代理
还是这张图,代理的设置就卸载这个下载的中间件 Downloader Middlewares。开搞1.创建一个新项目:创建一个项目>scrapy startproject s0127 ;进入项目> cd scrapy ;创建一个爬虫文件>scrapy genspider Proxy baidu.com2. 修改配置文件,启动用下载中间件# Enable or disable downloader middlewares# See https://docs.scra原创 2021-01-28 15:58:49 · 478 阅读 · 0 评论 -
爬虫-Scrapy(八)Scrapy快读提取超链接
前面写过用xpath 方式定位response对象中我们所需要的超链接地址,但如果超链接过多且位置规律性差就不太方便了,现在介绍一种快速提取和过滤超链接地址的方法1.明确需求查看豆瓣图书中首页中所有图书的超链接,先看首页长这样的然后随便点击一本数,进入图书的详情页,是这样的此时我们查看下浏览器的url地址,是https://book.douban.com/subject/35166573/?icn=index-latestbook-subject,这个就是我们要抓取的地址。2. 创建爬虫可以原创 2021-01-27 15:30:16 · 907 阅读 · 0 评论 -
爬虫-Scrapy(一) Scrapy 安装和创建项目
windows 下 Scrapy 的安装用pip 安装,网上的教程非常多,这里就不详细写了。注意安装过程中可能因为缺少依赖安装失败,这个时候有些教程说必须安装完整版的visual stdio,这玩意非常大,其实不需要,只需要安装合适版本的twisted就可以了,注意不要被误导了。2.Scrapy 框架运行流程对,就是下面这种图,very very famous ,基本讲到的Scrapy都会提及,讲的概念都大同小异,后面使用中慢慢说吧。估计找工作面试的话很容易被问到吧。3.Scrapy 创建.原创 2021-01-27 15:17:19 · 1013 阅读 · 0 评论 -
爬虫-Scrapy (六) 模拟登录
开始写模拟登录,很复杂,先写个最简单的。1.不登录抓取主页现在找一个简单提交form表单登录的网站也不好找,这次用内网部署的Azkaban管理平台做个示例。首先打开登录页面,是这样的输入账号,密码登录后,会自动跳转到主页,是这样的先记下主页的url,https://域名/index, 然后退出登录,粘贴主页的地址,访问,这时候会发现自动跳转到了 登录页面,无法访问到主页的信息。这就是后台限定了必须登录后才可以查看主页,此时想要爬取主页信息时必须先模拟登录。新生成1个爬虫,试下不登录的爬取效原创 2021-01-20 22:06:09 · 334 阅读 · 2 评论 -
爬虫-Scrapy(七)抓取招聘信息技能关键词,生成词云图
这个昨晚10点做到今天凌晨2点多,主要是安装wordcount 各种Duang Duang 的报错,建议需要安装的同学自己去下载对应的版本,不要太依赖pip的自动安装。开搞1.抓取招聘信息列表找一个招聘网站,最好不用登录就可以浏览职位的那种,然后输入关键次,先查看下结果。私心想着如果结果太多,就在加上些企业规模、薪资待遇等条件搜小下爬取范围,因为只为学习研究,数据量大的话太影响效率。结果发现 关键词:爬虫 + 地区:北京 只有3页110个结果,悲哀,那就全来吧。a.翻页,实现遍历3页翻页,访问原创 2021-01-17 16:12:09 · 876 阅读 · 0 评论