![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫-限免
文章平均质量分 91
F——
这个作者很懒,什么都没留下…
展开
-
爬虫学习--18.反爬斗争 selenium(3)
操作多窗口与页面切换有时候窗口中有很多子tab页面。这时候肯定是需要进行切换的。selenium提供了一个叫做switch_to.window来进行切换,具体切换到哪个页面,可以从driver.window_handles中找到。原创 2024-05-31 15:15:46 · 1367 阅读 · 0 评论 -
爬虫学习--17.反爬斗争 selenium(2)
鼠标行为链有时候在页面中的操作可能要有很多步,那么这时候可以使用鼠标行为链类ActionChains来完成。比如现在要将鼠标移动到某个元素上并执行点击事件。原创 2024-05-30 15:02:01 · 1551 阅读 · 0 评论 -
爬虫学习--16.反爬斗争 selenium(1)
爬虫建议尽量减少请求次数保存获取到的HTML,供查错和重复使用关注网站的所有类型的页面H5页面APP多伪装代理IP原创 2024-05-29 16:39:25 · 2279 阅读 · 0 评论 -
爬虫学习--15.进程与线程(2)
线程锁当多个线程几乎同时修改某一个共享数据的时候,需要进行同步控制 某个线程要更改共享数据时,先将其锁定,此时资源的状态为"锁定",其他线程不能改变,只到该线程释放资源,将资源的状态变成"非锁定",其他的线程才能再次锁定该资源。互斥锁保证了每次只有一个线程进行写入操作,从而保证了多线程情况下数据的正确性。原创 2024-05-27 16:35:27 · 1312 阅读 · 0 评论 -
爬虫学习--14.进程与线程
什么是进程?电脑中时会有很多单独运行的程序,每个程序有一个独立的进程,而进程之间是相互独立存在的。比如下标中的QQ播放器、小鹅通等等。什么是线程?进程可以简单的理解为一个可以独立运行的程序单位,它是线程的集合,进程就是有一个或多个线程构成的。而线程是进程中的实际运行单位,是操作系统进行运算调度的最小单位。可理解为线程是进程中的一个最小运行单元。原创 2024-05-23 11:47:50 · 1746 阅读 · 0 评论 -
爬虫学习--13.MongoDB数据库基础
MongoDB介绍MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。原创 2024-05-21 17:51:30 · 1424 阅读 · 0 评论 -
爬虫学习--12.MySQL数据库的基本操作(下)
MySQL查询数据MySQL 数据库使用SQL SELECT语句来查询数据。语法:在MySQL数据库中查询数据通用的 SELECT 语法原创 2024-05-20 11:01:05 · 1310 阅读 · 0 评论 -
爬虫学习--11.MySQL数据库的基本操作(上)
MySQL数据库的基本操作创建数据库我们可以在登陆 MySQL 服务后,使用命令创建数据库,语法如下原创 2024-05-19 08:59:19 · 1187 阅读 · 0 评论 -
爬虫学习--10.MySQL数据库的介绍与安装
MySQL是一个关系型数据库管理系统,由瑞典MySQL AB 公司开发,属于 Oracle 旗下产品。MySQL 是最流行的关系型数据库管理系统之一,在 WEB 应用方面,MySQL是最好的 RDBMS (Relational Database Management System,关系数据库管理系统) 应用软件之一。 数据库是一个存储数据的仓库,按照数据结构,来组织,管理和存储数据,并提供了增、删、改、查的功能。原创 2024-05-18 08:11:30 · 804 阅读 · 0 评论 -
爬虫学习--9.三大数据解析方式对比
以下是XPath、BeautifulSoup4和正则表达式三种数据解析方式与各自应用场景的对比:原创 2024-05-16 10:05:16 · 1017 阅读 · 0 评论 -
爬虫学习--8.正则表达式
正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。正则表达式使用单个字符串来描述、匹配一系列匹配某个语法规则的字符串。正则表达式是繁琐的,但它是强大的,学会之后的应用会让你除了提高效率外,会给你带来绝对的成就感。许多程序设计语言都支持利用正则表达式进行字符串操作原创 2024-05-15 10:57:20 · 1036 阅读 · 0 评论 -
爬虫学习--7.csv模块
csv模块什么是csv?CSV (Comma Separated Values),即逗号分隔值(也称字符分隔值,因为分隔符可以不是逗号),是一种常用的文本格式,用以存储表格数据,包括数字或者字符。很多程序在处理数据时都会碰到csv这种格式的文件。python自带了csv模块,专门用于处理csv文件的读取原创 2024-05-14 06:58:02 · 861 阅读 · 0 评论 -
爬虫学习--6.bs4 库
基本概念简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下:'''Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。'''Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式原创 2024-05-13 11:01:57 · 1100 阅读 · 0 评论