爬虫(Python)
文章平均质量分 82
爬虫相关库及语法
吴九日
这个作者很懒,什么都没留下…
展开
-
【爬虫】验证码处理方案
仅限于输入一次就可持续使用的情况使用光学识别引擎处理图片中的数据,目前常用于图片数据提取,较少用于验证码处理图片识别引擎:OCR(Optical Character Recognition)是指使用扫描仪或数码相机对文本资料进行扫描成图像文件,然后对图像文件进行分析处理,自动识别获取文字信息及版面信息的软件。Tesseract:一款由HP实验室开发,由Google维护的开源OCR引擎,特点是开源,免费,支持多语言,多平台。github项目地址:https://github.com/tesseract-oc原创 2022-06-15 14:29:38 · 2142 阅读 · 0 评论 -
【爬虫】反爬技巧总结
html静态文件反爬原因:请求参数为某个html文件内的参数解决方案:利用search寻找相关html静态文件发送请求反爬原因:请求参数为已发送请求包的返回参数解决方案:利用search寻找相关包js生成反爬原理:js生成请求参数解决方法:分析js,观察加密的实现过程,通过js2py获取js的执行结果验证码反爬原理:通过弹出验证码强制验证解决方法:连接打码平台API或者使用机器学习的方法识别验证码同一ip/账号单位时间内总请求数量反爬原理:同一个ip/账号大量请求对方服务器,会被识别为爬虫原创 2022-06-15 00:56:20 · 637 阅读 · 0 评论 -
爬虫学习笔记之【爬虫框架——selenium模块】
方式一:方式二:方法:特点:达到等待时间后再执行操作(设置时间太短元素可能还未加载出来,设置时间太长会浪费时间)方法:特点:在一段时间(最长等待20秒) 内判断元素是否定位成功,如果完成了,则进行下一步方法:特点:每一段间隔时间检查一次规定的标签是否存在,如果达成就停止等待,继续执行后续代码;如果未达成就继续等待,直到超过设置的最长等待时间(最长等待20秒) ,报超时异常.........原创 2022-06-13 00:03:10 · 924 阅读 · 0 评论 -
爬虫学习笔记之【数据提取——jsonpath、lxml模块】
一、常见响应内容分类1、结构化响应内容(1)json字符串(2)xml字符串2、非结构化响应内容(1)html字符串二、jsonpath模块1、jsonpath方法2、jsonpath常用语法规则三、lxml模块1、xpath方法2、XPath常用语法规则(1)基础语法(2)节点修饰语法(3)其他语法四、实战演练lxml模块应用——百度贴吧一、常见响应内容分类1、结构化响应内容(1)json字符串常用解析方式:json、jsonpath(2)xml字符串xml:可原创 2023-06-16 19:14:14 · 652 阅读 · 0 评论 -
爬虫学习笔记之【请求数据——requests模块】
requests模块常用get/post方法属性和session对象原创 2022-06-12 12:58:55 · 293 阅读 · 3 评论 -
【python】爬虫实战流程
无原创 2023-06-16 19:17:53 · 213 阅读 · 0 评论