爬虫
自己学习笔记,记录学习
V-Sugar
各位博客朋友,本人因工作原因两年内不能更新和回复博客内容,请求谅解 2021年初
展开
-
91job就业知识竞赛题库的爬取
最近呢一个大学生就业知识竞赛(这个需要有需要学生的账号才可以登录)的一个比赛,从这个网站上来看的话,如果你要是自己去看题库的话,是很不容易记住的,而我用的方法是将他的题库用爬虫爬取下来,然后再做的时候就可以直接查看了,今天呢闲下来了就把我之前爬取这个题库的过程写一下吧,仅供学习使用在网站中找到请求返回数据那个包,如图可以看出是那个question那个包返回的数据,并且里面有我们想要的数据当我们找到请求返回的响应数据包的位置的时候去查看请求时响应对应的地址和请求时headers携带的数据(由于是原创 2020-10-30 02:55:37 · 2158 阅读 · 0 评论 -
学习爬虫day08
在使用xpath.extract()去出来有空格crawlspider 的使用 代码在 f005中判断代理ip是否可用下载中间件 代码在f005中scrapy模拟登陆 f006url不完整的时候scrapy_redis 使用request 对象什么时候回入队scrapy_redis 去重方法生成指纹判断数据是否存在redis的集合中,不存在插入增量爬虫 断点续爬分布式爬虫自动获取url地址 re 和 xpath正则去除多余的字符和空字符串原创 2020-08-19 22:06:58 · 314 阅读 · 0 评论 -
学习爬虫day07
异步和非阻塞的区别scrapy创建设置scrapy使用scrapy 的数据流程scrapy的使用流程logging 日志模块scrapy 中的setting.py中的设置含义程序中使用setting.py中的变量pipelines 中的 open_spider 和 close_spiderscrapy 中的Item是什么,如何使用scrapy 如何发送请求scrapy 如何把数据从一个解析函数传递到另一个,为什么需要这样做原创 2020-08-18 14:14:59 · 269 阅读 · 0 评论 -
学习爬虫day06
Mongodb 使用 - 以集合存储删除查询排序 统计去重聚合 aggregate$group的注意点索引爬虫数据去重,实现增量式爬虫原创 2020-08-17 11:35:11 · 284 阅读 · 0 评论 -
学习爬虫day05
写爬虫代码selenium使用selenium使用注意点验证码识别原创 2020-08-15 22:20:20 · 233 阅读 · 0 评论 -
scrapy爬取数据时爬取到相同的数据
记录在使用scrapy框架的时候爬取到重复的数据原创 2020-08-14 19:19:38 · 2445 阅读 · 0 评论 -
mogodb使用
Mongodb 使用 - 以集合存储删除查询排序 统计去重聚合 aggregate$group的注意点索引爬虫数据去重,实现增量式爬虫原创 2020-08-14 18:04:49 · 325 阅读 · 0 评论 -
windows安装mongodb时出现的错误
MongoDB服务启动不起来的解决方法 1053原创 2020-08-09 16:07:19 · 389 阅读 · 1 评论 -
学习爬虫day04
数据格式xpath 重点lxml库使用lxml使用注意点实现爬虫的套路队列原创 2020-08-08 17:30:34 · 229 阅读 · 0 评论 -
爬取豆瓣电视剧数据
这里解决的在爬取豆瓣网站时候值爬取到了一下内容 {"msg": "invalid_request_1284", "code": 1287, "request": "GET \/rexxar\/v2\/subject_collection\/tv_american\/items", "localized_message": ""}原创 2020-08-07 12:08:37 · 2691 阅读 · 1 评论 -
学习爬虫day03
数据分类json模块的使用json使用的注意点正则表达式正则表达式的注意点python中的原始字符串 r 的用法原创 2020-08-06 13:17:15 · 102 阅读 · 0 评论 -
学习爬虫day02
使用代理ip携带cookie请求使用requests提供的session类来请求登录之后的网站思路不发送post请求,使用cookie获取登录的页面获取登录后的页面的三种方式字典推导式列表推导式寻找登录的post地址定位想要的jsrequests技巧使用报错后刷新,进行重新运行 parse_url.py安装第三方模块原创 2020-08-05 11:26:29 · 107 阅读 · 0 评论 -
学习爬虫day01
爬虫的概念爬虫流程爬虫要根据当前url地址对应的响应为准,当前url地址的elements的内容和url的响应不一样页面上的数据在哪里str bytes 如何转化requests模块requests中解决编码解码的方法保存文件的内容获取的内容判断请求是否成功url 编码原创 2020-08-04 14:36:16 · 246 阅读 · 0 评论