Scrapy
JTOOP
这个作者很懒,什么都没留下…
展开
-
Scrapy笔记十四:12306登录
文章目录12306登录思路:一、先解决登录验证码的问题二、使用selenium来模拟登录三、使用selenium来查询所需票12306登录思路:一、先解决登录验证码的问题1、先找到验证码的URL2、找到校验验证码的URL3、下载验证码并校验验证码1、通过requests的session中get请求将验证码下载下来2、然后通过post请求校验URL,发送对应的form表单3、form表单中的验证码坐标可以通过“超级鹰”打码平台提供的API来获取4、通过列表生成式或者chain库中的方原创 2020-07-14 01:04:12 · 179 阅读 · 0 评论 -
Scrapy笔记十三:爬取tencent招聘信息
文章目录爬取tencent招聘信息1、创建scrapy2、查看对应网站是否是https3、分组爬取4、可以将在spider上爬取到的数据放入到pipeline中5、爬取下一页next_url6、cmd显示结果爬取tencent招聘信息1、创建scrapy2、查看对应网站是否是httpssetting设置请求头3、分组爬取setting设置log显示级别注意:源码中tbody标签是不存在的4、可以将在spider上爬取到的数据放入到pipeline中记得去setting中设置开启管原创 2020-07-13 20:30:00 · 124 阅读 · 0 评论 -
Scrapy笔记十二:简单爬取苏宁书籍网站
简单爬取苏宁书籍网站https://book.suning.com/整个爬取过程:1.(parse函数)先爬取book大分类的类型,例如:文学艺术、少儿...2.(parse函数)爬取每个大分类下的小分类的类型,例如:文学艺术下有:小说、散文随笔、青春文学...3.(parse_book_list函数)进入步骤2中每个小分类的url下,爬取该url下的每本书的书名和对应的url4.(p...原创 2019-10-08 15:48:11 · 349 阅读 · 0 评论 -
Scrapy笔记十一:模拟登录
文章目录模拟登录携带cookies直接登录发送post请求自动登录模拟登录携带cookies直接登录def start_requests()发送start_urls请求发送post请求yield scrapy.FormRequest自动登录yield scrapy.FormRequest.from_response...原创 2020-07-13 20:18:32 · 88 阅读 · 0 评论 -
Scrapy笔记十:CrawlSpider
文章目录CrawlSpider命令rulesCrawlSpider命令scrapy genspider it crawl 爬虫名字 allowed_domainsrulesLinkExtractor(链接提取器)callback(回调函数)follow(定义当前的URL地址的response中是否能够重新来提取URL)...原创 2020-07-13 20:15:35 · 111 阅读 · 0 评论 -
Scrapy笔记九:scrapy setting配置文件
scrapy setting配置文件原创 2020-07-13 20:09:47 · 117 阅读 · 0 评论 -
Scrapy笔记八:scrapy shell
scrapy shell一个交互终端,可以在未启动爬虫的情况下调试代码scrapy shell url地址命令responserequestspider......原创 2020-07-12 21:42:02 · 80 阅读 · 0 评论 -
Scrapy笔记七:debug信息的认识
debug信息的认识原创 2020-07-12 21:39:38 · 166 阅读 · 1 评论 -
Scrapy笔记六:items
items定义爬虫的字段原创 2020-07-12 21:38:48 · 113 阅读 · 0 评论 -
Scrapy笔记五:发送请求
scrapy发送请求yield scrapy.Request(url=xxx,callback=xxx,meta=xxx,dont_filter=xxx)原创 2020-07-12 21:35:59 · 99 阅读 · 0 评论 -
Scrapy笔记四:Pipeline
文章目录Pipeline开启权重logging模块Pipeline开启setting.py中开启,将ITEM_PIPELINES注释去掉权重数字越小,优先级越高logging模块setting.py里面开启LOG_FILE = ‘filename.log’import logginglogger = logging.getLongger(__name__)logger.warning('this is warning')...原创 2020-07-12 21:32:48 · 81 阅读 · 0 评论 -
Scrapy笔记三:Scrapy的入门使用
文章目录Scrapy的入门使用创建一个项目生成一个爬虫给提取数据保存数据 Pipeline关闭日志Scrapy的入门使用创建一个项目scrapy startproject 项目名字生成一个爬虫给scrapy genspider demo demo.comdemo是爬虫的名字,demo.com是允许爬取的范围提取数据保存数据 Pipeline关闭日志setting.py文件中LOG_LEVEL = ‘WARNING’...原创 2020-07-12 16:39:08 · 87 阅读 · 0 评论 -
Scrapy笔记二:Scrapy的工作流程
文章目录Scrapy的工作流程调度器Scheduler下载器Downloader爬虫Spider引擎Scrapy Engine中间件下载中间件Downloader Middlewares爬虫中间件Spider Middlewares数据队列PipelineScrapy的工作流程调度器Scheduler队列,存放引擎(Scrapy Engine)发过来的requests请求下载器Downloader将requests"变成"response爬虫Spider自己编写的爬虫,爬取网络原创 2020-07-12 16:34:48 · 93 阅读 · 0 评论 -
Scrapy笔记一:Scrapy的介绍
文章目录Scrapy的介绍为什么要学Scrapy什么是Scrapy框架Twisted异步网络框架同异步和非阻塞同步和异步同步异步阻塞和非阻塞阻塞非阻塞Scrapy的介绍为什么要学Scrapy让爬虫更快更强什么是Scrapy框架Twisted异步网络框架同异步和非阻塞同步和异步同步发送,必须要有返回值异步发送,有没有返回都可以阻塞和非阻塞阻塞阻塞类似:input非阻塞非阻塞类似:print...原创 2020-07-12 16:20:21 · 83 阅读 · 0 评论