爬虫
文章平均质量分 86
学习爬虫时的一点记录
竹清兰香
山中习静观朝槿,松下清斋折露葵。
展开
-
爬虫学习笔记(总)
本篇文章是对爬虫笔记系列文章的汇总,包含爬虫的介绍、request的使用、数据解析和验证码识别、异步爬虫、scrapy框架、增量式爬虫以及异步编程等内容。原创 2021-09-01 14:34:51 · 3415 阅读 · 3 评论 -
爬虫学习笔记(补充内容)异步编程
文章目录前言补充内容:协程 & asyncio & 异步异步编程(课程简介)1.协程1.1greenlet实现协程1.2 yield关键字1.3asyncio1.4async & await 关键字2.协程的意义3.异步编程3.1 事件循环3.2 快速上手3.3 await3.4 Task对象3.5 asyncio.Future对象3.6 concurrent.futures.Future对象3.7异步迭代器3.8异步上下文管理器4.uvloop5.实战案例5.1 异步redis原创 2021-09-01 14:30:44 · 492 阅读 · 0 评论 -
爬虫学习笔记(第九章)增量式爬虫
文章目录前言第九章增量式爬虫1.知识点2.代码前言2021.08.30第九章比较少第九章增量式爬虫1.知识点增量式爬虫概念:监测网站数据更新的情况,只会爬取网站最新更新出来的数据。分析:指定一个起始url基于CrawlSpider获取其他页码链接基于Rule将其他页码链接进行请求从每一个页码对应的页面源码中解析出每一部电影详情页的url核心: 检测电影详情页的url之前有没有请求过将爬取过的电影详情页url存储存储到redis的set数据结构中对详情页原创 2021-08-30 20:14:34 · 205 阅读 · 0 评论 -
爬虫学习笔记(第八章)Scrapy框架[下]
第八章章节文章目录第八章章节前言6.请求传参7.图片数据爬取之ImagesPipeline8.中间件①知识点②代码Ⅰ拦截请求Ⅱ拦截响应9.CrawlSpider10.分布式爬虫前言2021.8.30完成第八章的学习6.请求传参请求传参使用场景:如果要爬取的数据不在同一张页面中。(深度爬取)需求:爬取boss的岗位名称,岗位描述(原网站似乎改为动态加载数据,代码不可用,仅供参考)代码如下:settings.py常规操作:# Crawl responsibly by i原创 2021-08-30 12:51:27 · 543 阅读 · 0 评论 -
爬虫学习笔记(第八章)Scrapy框架[上]
文章目录前言第八章scrapy框架1.基础了解2.scrapy数据解析3.scrapy持久化存储Ⅰ知识点Ⅱ代码部分①基于终端指令②基于管道Ⅲ面试题(代码有报错,暂未解决)4.基于spider的全站数据爬取5.五大核心组件前言2021.8.30完成第八章的学习第八章scrapy框架1.基础了解什么是框架?就是一个集成了很多功能并且具有很强通用性的一个项目模板。如何学习框架?专门学习框架封装的各种功能的详细用法。什么是scrapy?爬虫中封装好的一个明星框架。功能:原创 2021-08-30 12:51:03 · 313 阅读 · 0 评论 -
爬虫学习笔记(第七章)动态加载数据处理
文章目录前言第七章一、selenium模块的基本使用1.selenium使用流程知识点部分代码部分①展示代码②selenium模块使用样例③selenium其它动态操作④动作链和iframe操作⑤模拟QQ空间登录⑥谷歌无头浏览器&反检测2.12306模拟登录前言2021.08.08弄完第七章。第七章一、selenium模块的基本使用问题:selenium模块和爬虫之间具有怎样的关联?1.便捷的获取网站中动态加载的数据2.便捷的实现模拟登录什么是selenium模块?原创 2021-08-08 16:08:24 · 635 阅读 · 0 评论 -
爬虫学习笔记(第六章)高性能异步爬虫
文章目录前言第六章1.知识点2.实战①单线程爬取数据②线程池爬取数据③爬虫中应用线程池(动态加载的video标签待解决)④协程⑤多任务异步协程01前言2021.08.01协程听得有点蒙,弄完第六章。后面还差一点,一会再补上,过了12点就2号了。提示:以下是本篇文章正文内容,下面案例可供参考第六章1.知识点高性能异步爬虫目的:在爬虫中使用异步实现高性能的数据爬取操作。异步爬虫的方式:1.多线程、多进程(不建议):好处:可以为相关阻塞的操作单独开启线程或进程,阻塞操作就可以异步执原创 2021-08-01 23:46:37 · 436 阅读 · 1 评论 -
爬虫学习笔记(第五章)requests进阶
文章目录前言第五章1.模拟登录2.实战①人人网模拟登录(src反爬待解决)②爬取用户信息(咱没有人人网账号,代码仅供参考)3.模拟登录Cookie操作4.代理前言2021.08.01弄完第五章。第五章1.模拟登录模拟登录:爬取基于某些用户的用户信息。2.实战①人人网模拟登录(src反爬待解决)需求:对人人网进行模拟登录(人人网,注册不了,可以跳了)。点击登录按钮之后会发起一个post请求;post请求中会携带登录之前录入的相关的登录信息(用户名、密码、验证码等);原创 2021-08-01 16:54:32 · 363 阅读 · 0 评论 -
爬虫学习笔记(第四章)验证码识别
文章目录前言第四章验证码识别验证码和爬虫之间的关系实战:识别古诗文网登录页面中的验证码。前言 2021.07.29第四章似乎不是很多,后面几章好像也不多。第四章验证码识别验证码和爬虫之间的关系反爬机制:验证码。识别验证码图片中的数据,用于模拟登陆操作。识别验证码的操作:人工肉眼识别。(不推荐)第三方自动识别。(推荐)云打码(http://www.yundama.com/demo.html 支持的类型最全)(教程里显示要花钱,原创 2021-07-29 11:42:00 · 779 阅读 · 1 评论 -
爬虫学习笔记(第三章)数据解析
文章目录前言第三章一、理论知识二、图片爬取(爬一张)三、正则解析(爬一页)四、正则解析(分页爬)五、bs4解析基础六、bs4解析案例实战七、xpath解析基础八、xpath实战①案例一:58二手房②案例二:下载图片数据③案例三:解析出所有城市名④案例四:爬取站长素材中免费简历模板前言 2021.07.27放假了,这两天在忙其它事,这几天回来继续学 2021.07.28学完了第三章;搞完了第三章第三章原创 2021-07-28 20:31:16 · 740 阅读 · 0 评论 -
正则表达式学习笔记(一)
系列文章目录文章目录系列文章目录前言两个网站知识点&语法总结前言 2021.07.18学爬虫用到,单独学习一下两个网站1.正则在线测试工具:https://regexr-cn.com/2.正则练习:https://codejiaonang.com/知识点&语法字符组 [ ]——匹配中括号里出现的任意一个元素eg. [Pp]ython # Python||python'-'表示区间eg.[0-9],原创 2021-07-20 10:32:27 · 1155 阅读 · 0 评论 -
爬虫学习笔记(第二章)requests模块
文章目录前言第二章request模块简介实战编码①爬取搜狗首页的页面数据实战巩固②网页采集器UA③破解百度翻译④豆瓣电影爬取⑤肯德基餐厅位置爬取⑥药监总局相关数据爬取前言 2021.07.17今天有点水,只写了几篇爬虫代码第二章request模块简介urllib模块: 古老,用法繁琐requests模块: 功能强大(爬虫半壁江山),用法简洁且高效Python中原生的基于网络请求的模块作用: 模拟浏览器发请求如何使用: (reque原创 2021-07-17 21:07:54 · 624 阅读 · 0 评论 -
爬虫学习笔记(第一章)爬虫简介
文章目录前言第一章一、爬虫简介二、爬虫分类三、反爬&反反爬四、http协议&https协议前言 2021.07.14开始系统地学习爬虫:2020年Python爬虫全套课程(学完可做项目)第一章一、爬虫简介概念:模拟&抓取价值:实际应用&就业合法性:法律上不禁止具有违法风险 (干扰网络正常运营;爬取法律保护的数据)应对:优化代码;审查爬取内容二、爬虫分类通用爬虫: 抓取一整张页面内容;聚焦原创 2021-07-17 21:02:37 · 361 阅读 · 0 评论