python爬虫
文章平均质量分 87
根据自己日常靴子总结的
小马哥-码农
这个作者很懒,什么都没留下…
展开
-
Selenium(səˈliːniəm)库的使用(1)
selenium是一个web的自动化测试工具,最初是为网站自动化测试而开发的,selenium可以直接运行在浏览器上,它支持所有主流的浏览器,可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏原创 2022-12-02 16:36:42 · 1065 阅读 · 0 评论 -
JS逆向爬虫(二)
JS逆向是在爬虫或POC脚本访问请求时,连接请求需要携带动态生成的请求头参数,比如常见的csrf请求头,诸如此类的限制来实现反爬原创 2023-01-12 09:57:32 · 941 阅读 · 1 评论 -
JS逆向爬虫(一)
S逆向是在爬虫或POC脚本访问请求时,连接请求需要携带动态生成的请求头参数,比如常见的csrf请求头,诸如此类的限制来实现反爬原创 2023-01-04 18:07:26 · 1691 阅读 · 0 评论 -
识别验证码
识别此类验证码,首先需要找到验证码图片在网页HTML代码中的位置,然后将验证码下载,最后在通过OCR技术进行验证码的识别工作原创 2023-01-03 17:35:21 · 3381 阅读 · 0 评论 -
Tesseract(识别验证码)
Tesseract是一个将图像翻译成文字的OCR(光学文字识别,Optical Character Recognition),最初由 HP 公司开发,目前由谷歌赞助。Tesseract是目前公认最优秀、最准确的开源OCR库。Tesseract具有很高的识别度,也具有很高的灵活性,他可以通过训练识别任何字体原创 2022-12-30 15:28:14 · 1128 阅读 · 0 评论 -
APP抓包工具
随机互联网的发展,数据不仅仅只是存在于PC端。移动端的数据在这几年的占比以及势头发展趋势呈现几何倍数的增长。对于做数据分析、用户画像、市场调研来说仅仅参考PC端的数据是远远不够的。那么于此同时移动的数据就显得尤为的重要原创 2022-12-29 15:04:40 · 4206 阅读 · 0 评论 -
多线程与多进程爬虫(持续更新中...)
由于线程是操作系统直接支持的执行单元,涉及两个模块:_thread(低级模块)和threading(高级模块),threading对_thread进行了封装,一般使用threading这个高级模块。原创 2022-12-28 15:25:49 · 299 阅读 · 0 评论 -
scrapy-Redis分布式
scrapy是一个基于redis的scrapy组件,用于快速实现scrapy项目的分布式部署和数据爬取原创 2022-12-15 23:34:28 · 117 阅读 · 0 评论 -
MongbDB与Python的交互
MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。原创 2022-12-13 23:53:33 · 132 阅读 · 0 评论 -
MongoDB
MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。原创 2022-12-09 09:17:02 · 95 阅读 · 0 评论 -
Splash的爬虫应用
Splash是一个JavaScript渲染服务,它是一个带有HTTP API的轻型WEB浏览器,Python可以通过HTTP API调用Splash中的一些方法实现对页面的渲染工作。同时还可以使用Lua语言实现页面的渲染,所以使用Splash同样可以实现动态渲染页面的爬取原创 2022-12-07 18:33:55 · 1019 阅读 · 1 评论 -
解析数据的Beautiful Soup模块
Beautiful Soup是一个用于从HTML和XML文件中提取数据的Python模块原创 2022-12-02 11:23:17 · 106 阅读 · 0 评论 -
XPath解析
XPath是XML路径语言,是一门可以在XML文件中查找信息的语言原创 2022-12-01 18:21:29 · 892 阅读 · 0 评论 -
正则表达式
re模块中的search()方法用于在整个字符串中搜索第一个匹配的值原创 2022-12-01 18:13:32 · 610 阅读 · 0 评论 -
Requests-Cache
该模块用于为requests模块提供持久化缓存支持,如果requests模块向一个URL发送重复请求时,Requests-Cache模块将会自动判断当前的网络请求是否产生了缓存。如果已经产生了缓存,就会从缓存中读取数据作为响应内容。如果没有缓存就会向服务器发送网络请求,获取服务器所发返回的响应内容。使用Request-Cache模块可以减少网络资源避免重复请求的次数,这样可以变相的躲避一些反爬机制原创 2022-12-01 18:04:32 · 313 阅读 · 0 评论 -
Requests-HTML
Requests-HTML模块和requests是同一个人开发者所开发的。Requests-HTML模块不仅包含了requests模块中的所有功能,还增加了对JavaScript的支持,数据提取以及模拟真实浏览器等功能。原创 2022-12-01 17:56:38 · 1125 阅读 · 4 评论