Scrapy
JTOOP
这个作者很懒,什么都没留下…
展开
-
Scrapy笔记十四:12306登录
文章目录12306登录思路:一、先解决登录验证码的问题二、使用selenium来模拟登录三、使用selenium来查询所需票 12306登录 思路: 一、先解决登录验证码的问题 1、先找到验证码的URL 2、找到校验验证码的URL 3、下载验证码并校验验证码 1、通过requests的session中get请求将验证码下载下来 2、然后通过post请求校验URL,发送对应的form表单 3、form表单中的验证码坐标可以通过“超级鹰”打码平台提供的API来获取 4、通过列表生成式或者chain库中的方原创 2020-07-14 01:04:12 · 184 阅读 · 0 评论 -
Scrapy笔记十三:爬取tencent招聘信息
文章目录爬取tencent招聘信息1、创建scrapy2、查看对应网站是否是https3、分组爬取4、可以将在spider上爬取到的数据放入到pipeline中5、爬取下一页next_url6、cmd显示结果 爬取tencent招聘信息 1、创建scrapy 2、查看对应网站是否是https setting设置请求头 3、分组爬取 setting设置log显示级别 注意:源码中tbody标签是不存在的 4、可以将在spider上爬取到的数据放入到pipeline中 记得去setting中设置开启管原创 2020-07-13 20:30:00 · 130 阅读 · 0 评论 -
Scrapy笔记十二:简单爬取苏宁书籍网站
简单爬取苏宁书籍网站 https://book.suning.com/ 整个爬取过程: 1.(parse函数)先爬取book大分类的类型,例如:文学艺术、少儿... 2.(parse函数)爬取每个大分类下的小分类的类型,例如:文学艺术下有:小说、散文随笔、青春文学... 3.(parse_book_list函数)进入步骤2中每个小分类的url下,爬取该url下的每本书的书名和对应的url 4.(p...原创 2019-10-08 15:48:11 · 361 阅读 · 0 评论 -
Scrapy笔记十一:模拟登录
文章目录模拟登录携带cookies直接登录发送post请求自动登录 模拟登录 携带cookies直接登录 def start_requests() 发送start_urls请求 发送post请求 yield scrapy.FormRequest 自动登录 yield scrapy.FormRequest.from_response ...原创 2020-07-13 20:18:32 · 95 阅读 · 0 评论 -
Scrapy笔记十:CrawlSpider
文章目录CrawlSpider命令rules CrawlSpider 命令 scrapy genspider it crawl 爬虫名字 allowed_domains rules LinkExtractor(链接提取器) callback(回调函数) follow(定义当前的URL地址的response中是否能够重新来提取URL) ...原创 2020-07-13 20:15:35 · 118 阅读 · 0 评论 -
Scrapy笔记九:scrapy setting配置文件
scrapy setting配置文件原创 2020-07-13 20:09:47 · 125 阅读 · 0 评论 -
Scrapy笔记八:scrapy shell
scrapy shell 一个交互终端,可以在未启动爬虫的情况下调试代码 scrapy shell url地址 命令 response request spider ......原创 2020-07-12 21:42:02 · 86 阅读 · 0 评论 -
Scrapy笔记七:debug信息的认识
debug信息的认识原创 2020-07-12 21:39:38 · 172 阅读 · 1 评论 -
Scrapy笔记六:items
items 定义爬虫的字段原创 2020-07-12 21:38:48 · 120 阅读 · 0 评论 -
Scrapy笔记五:发送请求
scrapy发送请求 yield scrapy.Request(url=xxx,callback=xxx,meta=xxx,dont_filter=xxx)原创 2020-07-12 21:35:59 · 110 阅读 · 0 评论 -
Scrapy笔记四:Pipeline
文章目录Pipeline开启权重logging模块 Pipeline 开启 setting.py中开启,将ITEM_PIPELINES注释去掉 权重 数字越小,优先级越高 logging模块 setting.py里面开启LOG_FILE = ‘filename.log’ import logging logger = logging.getLongger(__name__) logger.warning('this is warning') ...原创 2020-07-12 21:32:48 · 87 阅读 · 0 评论 -
Scrapy笔记三:Scrapy的入门使用
文章目录Scrapy的入门使用创建一个项目生成一个爬虫给提取数据保存数据 Pipeline关闭日志 Scrapy的入门使用 创建一个项目 scrapy startproject 项目名字 生成一个爬虫给 scrapy genspider demo demo.com demo是爬虫的名字,demo.com是允许爬取的范围 提取数据 保存数据 Pipeline 关闭日志 setting.py文件中LOG_LEVEL = ‘WARNING’ ...原创 2020-07-12 16:39:08 · 91 阅读 · 0 评论 -
Scrapy笔记二:Scrapy的工作流程
文章目录Scrapy的工作流程调度器Scheduler下载器Downloader爬虫Spider引擎Scrapy Engine中间件下载中间件Downloader Middlewares爬虫中间件Spider Middlewares数据队列Pipeline Scrapy的工作流程 调度器Scheduler 队列,存放引擎(Scrapy Engine)发过来的requests请求 下载器Downloader 将requests"变成"response 爬虫Spider 自己编写的爬虫,爬取网络原创 2020-07-12 16:34:48 · 101 阅读 · 0 评论 -
Scrapy笔记一:Scrapy的介绍
文章目录Scrapy的介绍为什么要学Scrapy什么是Scrapy框架Twisted异步网络框架同异步和非阻塞同步和异步同步异步阻塞和非阻塞阻塞非阻塞 Scrapy的介绍 为什么要学Scrapy 让爬虫更快更强 什么是Scrapy 框架 Twisted异步网络框架 同异步和非阻塞 同步和异步 同步 发送,必须要有返回值 异步 发送,有没有返回都可以 阻塞和非阻塞 阻塞 阻塞类似:input 非阻塞 非阻塞类似:print ...原创 2020-07-12 16:20:21 · 91 阅读 · 0 评论