![](https://img-blog.csdnimg.cn/5a5b165240184d6888927aec9109da39.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
爬虫
文章平均质量分 85
python爬虫总结
仲夏那片海
技术分享爱好者。个人网站whpcyt.cn
展开
-
Python 使用fake_useragent生成随机User-Agent
大多数情况下,需要设置请求头。而在请求头中,随机更换User-Agent可以避免触发相应的反爬机制。使用第三方库fake-useragent便可轻松生成随机User-Agent。原创 2023-12-27 04:05:03 · 1540 阅读 · 0 评论 -
利用appium自动控制移动设备并提取数据
使用fiddler等抓包工具,利用appium+mitmproxy+wget等python模块自动获取抖音视频文件。完成代码如下,并运行代码查看效果:如果模拟器中抖音app被启动,并打印出模拟设备的分辨率则成功。从(start_x, start_y)滑动到(end_x, end_y)实例化appium driver对象后添加如下代码,运行并查看效果。如图填写配置,并点击start session。在window的虚拟环境下执行。定位元素及获取其文本内容的方法。原创 2024-01-18 23:58:02 · 823 阅读 · 0 评论 -
scrapy的入门使用
定义一个管道类重写管道类的process_item方法process_item方法处理完item之后必须返回给引擎# 爬虫文件中提取数据的方法每yield一次item,就会运行一次# 该方法为固定名称函数。原创 2024-01-28 21:36:41 · 823 阅读 · 0 评论 -
scrapy的概念作用和工作流程
Scrapy文档地址:http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html。Scrapy 使用了Twisted['twɪstɪd]异步网络框架,可以加快我们的下载速度。少量的代码,就能够快速的抓取。原创 2024-01-26 23:45:15 · 1186 阅读 · 0 评论 -
mongodb的介绍
mongodb 是一个功能最丰富的NoSQL非关系数据库。由 C++ 语言编写。mongodb 本身提供S端存储数据,即server;也提供C端操作处理(如查询等)数据,即client。mongo shell 是一个js的执行环境使用$where 写一个函数, 返回满足条件的数据查询年龄大于30的学生})原创 2024-01-26 23:33:51 · 1287 阅读 · 0 评论 -
selenium的其它使用方法
在了解了隐式等待和显式等待以及强制等待后,我们发现并没有一种通用的方法来解决页面等待的问题,比如“页面需要滑动才能触发ajax异步加载”的场景,那么接下来我们就以。页面在加载的过程中需要花费时间等待网站服务器的响应,在这个过程中标签元素有可能还没有加载出来,是不可见的,如何处理这种情况呢?隐式等待针对的是元素定位,隐式等待设置了一个时间,在一段时间内判断元素是否定位成功,如果完成了,就进行下一步。selenium能够帮助我们处理页面中的cookie,比如获取、删除,接下来我们就学习这部分知识。原创 2024-01-21 23:56:02 · 1198 阅读 · 0 评论 -
mongodb和python交互
查看pymongo官方文档或源代码 http://api.mongodb.com/python/current/结果是一个Cursor游标对象,是一个可迭代对象,可以类似读文件的指针,但是只能够进行一次读取。insert可以批量的插入数据列表,也可以插入一条数据。提供了mongdb和python交互的所有方法。返回所有满足条件的结果,如果条件为空,则返回全部。接收一个字典形式的条件,返回字典形式的整条数据。返回ObjectId对象构成的列表。如果条件为空,则返回第一条。返回插入数据的_id。原创 2024-01-19 23:56:16 · 614 阅读 · 0 评论 -
Tesseract-OCR的简单使用与训练
Tesseract-OCR的简单使用与训练原创 2023-11-19 00:00:03 · 2692 阅读 · 1 评论 -
Fiddler抓包工具简介,安装及使用教程详解
1.第一块区域是菜单2.第二块区域是一些快捷菜单,可以点下快捷功能键3.第三块左边是抓捕的请求会话列表,每一个请求就是一个会话4.第四块右边上方区域是request请求的详细信息,可以查看Headers、Cookies、Raw、JSON等5.第五块右边下方区域就是response信息,可以查看服务端返回的json数据或其它信息6.第六块区域左下角黑色的那块小地方,虽然很不起眼,容易被忽略掉,这地方是命令行模式,可以输入简单的指令如:cls,执行清屏的作用等1.请求地址完整地址及协议。原创 2023-10-08 14:47:55 · 5109 阅读 · 4 评论 -
爬虫笔记总结(requests使用)
requests文档。原创 2023-11-18 23:04:53 · 653 阅读 · 1 评论 -
python包管理pip使用
python包管理使用和上传原创 2023-11-17 22:25:30 · 196 阅读 · 1 评论 -
爬虫笔记总结(爬虫流程)
爬虫的作用及流程原创 2023-11-17 22:32:15 · 541 阅读 · 1 评论 -
爬虫笔记总结(开篇)
请求参数(html文件提取、发送请求获取、通过js生成、通过验证码)原创 2023-11-06 00:34:35 · 1344 阅读 · 1 评论