Python网络爬虫基础入门_摘星月为妆。的博客-CSDN博客

Python网络爬虫基础入门

关注

文章平均质量分 91

本专栏深入浅出，引导初学者掌握Python网络爬虫的核心技术。内容覆盖HTTP协议、网页解析、数据存储等关键知识点，结合实例演练，逐步构建完整的爬虫项目。适合编程基础者，通过系统性学习，快速进入网络数据采集领域。

关注数：文章数：14 文章阅读量：14389 文章收藏量：268

作者: 摘星月为妆。

深圳大学大二在读，记录日常学习，欢迎各位大佬的支持，我们一起进步！！

展开

14.网络爬虫—数据提取2-正则表达式规则详讲

正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是用来匹配字符串非常强大的工具，在其他编程语言中同样有正则表达式的概念，Python同样不例外，利用了正则表达式，我们想要从返回的页面内容提取出我们想要的内容就易如反掌了。

原创 2024-04-24 18:01:08 · 1371 阅读 · 9 评论
13.网络爬虫—数据提取1-正则表达式基础入门

正则表达式（Regular Expression），通常简称为“regex”或“regexp”，是一种用来定义搜索模式的文本格式，主要用途是在文本中检索符合某个模式的字符串。它由一组特定的字符组成，这些字符可以代表任意数量的字符或者某种特定的字符模式。正则表达式（Regular Expression，简称regex或regexp）是一种强大的文本处理工具，它由一系列的普通字符和特殊字符（元字符）构成，用于描述和匹配字符串的特定模式。正则表达式提供了一种灵活且强大的方式来查找、替换、验证和提取文本数据。

原创 2024-04-24 17:54:22 · 564 阅读 · 0 评论
12.网络爬虫—深入探索Requests库的进阶用法

HTTP代理是一种位于客户端和服务器之间的中间设备，它的主要作用是接收客户端的请求并转发给服务器，再将服务器的响应转发回客户端。通过异步发送请求，可以在后台加载数据，从而减少用户等待的时间，提升用户体验。例如，在爬虫中，可以使用并发请求来同时抓取多个网页的内容，从而提高整体的爬取效率。：当您使用Requests发起请求时，如果正确设置了代理，那么您的请求将通过VPN代理服务器发送，从而隐藏您的真实IP地址和位置。这样，通过使用连接池和并发请求，我们可以提高网络请求的效率，同时减少资源消耗。

原创 2024-04-23 17:39:22 · 1164 阅读 · 3 评论
11.网络爬虫—深入探索Requests库的基本用法

在Python中，我们可以使用requests库发送请求时自定义请求头部。Win64;q=0.9"我们首先导入了requests库，定义了要发送请求的URL以及自定义的请求头部headers。接着使用函数发送GET请求，并将自定义的请求头部传递给该函数，将响应存储在变量response中。

原创 2024-04-23 17:28:25 · 995 阅读 · 0 评论
10.网络爬虫—URLError监控与故障排除指南

为了处理这些异常，爬虫开发者通常会使用try-except语句来捕获URLError和HTTPError，以便在出现这些错误时能够采取相应的措施，比如记录错误信息、跳过当前URL或尝试重新连接等。如果请求成功，将读取响应内容并解码为字符串，然后打印出来；在Python网络爬虫中，当出现URLError时，通常会采用异常处理机制来确保程序的稳定运行。异常，则根据异常的参数个数打印出相应的错误信息。在网络爬虫中，URLError通常出现在尝试访问某个网络资源时遇到了问题。异常类，用于处理HTTP请求和错误。

原创 2024-04-22 13:50:39 · 1128 阅读 · 4 评论
9.网络爬虫—理解并利用Cookie进行高级网页抓取

在前面的例子中，我们使用的是默认的opener，也就是urlopen。它是一个特殊的opener，可以理解成opener的一个特殊实例，传入的参数仅仅是url、data和timeout。它非常强大，我们可以利用该模块的CookieJar类的对象来捕获cookie并在后续连接请求时重新发送，比如可以实现模拟登录功能。创建一个带有cookie的opener，在访问登录的URL时，将登录后的cookie保存下来，然后利用这个cookie来访问其他网址。最后，我们使用自定义的opener打开URL并获取响应。

原创 2024-04-22 13:40:15 · 1274 阅读 · 6 评论
8.网络爬虫—深入理解Ajax请求与SSL证书验证

这类状态码表示请求已被服务器接收，需要客户端继续发送其他信息才能完成请求。例如，100（Continue）表示服务器已接收到请求头，客户端可以继续发送请求体。可以将响应数据按照指定的编码方式解码为Unicode字符串。：这类状态码表示需要客户端进行额外的操作才能完成请求。：这类状态码表示服务器在处理请求的过程中发生了错误。：这类状态码表示请求包含语法错误或请求无法实现。：这类状态码表示请求已成功被服务器处理。可以获取响应的编码方式。

原创 2024-04-20 11:01:00 · 1605 阅读 · 13 评论
7.网络爬虫—Urllib库的进阶教学(伪装自己)

假如一个网站它会检测某一段时间某个IP 的访问次数，如果访问次数过多，它会禁止你的访问。所以你可以设置一些代理服务器来帮助你做工作，每隔一段时间换一个代理，网站君都不知道是谁在捣鬼了，这酸爽！透明代理：目标网站知道你使用了代理并且知道你的源IP地址，这种代理显然不符合我们这里使用代理的初衷。匿名代理：匿名程度比较低，也就是网站知道你使用了代理，但是并不知道你的源IP地址。高匿代理：这是最保险的方式，目标网站既不知道你使用的代理更不知道你的源IP。代表用的哪个请求的浏览器。

原创 2024-04-20 10:50:40 · 237 阅读 · 0 评论
6.网络爬虫—Post请求与实战

POST请求是一种HTTP协议中的请求方法，用于向服务器提交数据以供处理。POST请求与GET请求是HTTP协议中最常用的两种请求方法，但它们在用途和功能上有所区别用途差异：POST请求通常用于创建资源，如上传文件、发布文章等操作，它允许用户向服务器发送大量数据。而GET请求主要用于获取资源，如查询、搜索等读操作。数据传输：在POST请求中，数据被放置在请求的body部分，并且可以支持多种编码方式。这使得POST请求能够传输大量的数据，而且不显示在URL中，从而提高了数据的安全性。

原创 2024-04-19 16:34:39 · 588 阅读 · 2 评论
5.网络爬虫—Requests模块Get请求与实战

这种技术通常使用JavaScript来实现，当用户访问一个网站时，服务器会发送一个包含JavaScript代码的HTML文件，然后浏览器执行这些代码，从服务器获取数据，并根据这些数据动态生成和更新网页内容。在这种情况下，无法直接从预览中获取这些数据，因为它们是在浏览器端生成的，而不是直接从服务器获取的静态内容。GET请求，并获取了HTTP响应的正文和状态码，并根据状态码判断请求是否成功。根据HTTP响应状态码判断请求是否成功，如果状态码为200，则表示请求成功，否则表示请求失败。

原创 2024-04-19 14:42:15 · 924 阅读 · 5 评论
4.Python网络爬虫—使用Urllib库爬取数据

Urllib是Python的一个内置库，专门用于处理HTTP请求。这个库包含四个主要模块：request：这是Urllib库中最基本的HTTP请求模块。使用该模块，你可以模拟发送各种HTTP请求，如GET、POST等。它允许你通过编程方式与Web服务器进行交互，获取或上传数据。error：此模块负责处理在HTTP请求过程中可能出现的错误。如果在请求过程中遇到问题，比如网络连接失败、服务器返回错误代码等，error模块可以帮助你捕获这些异常，并据此采取相应的措施，例如重新发送请求或者输出错误信息。

原创 2024-04-18 18:23:14 · 853 阅读 · 3 评论
3.Python网络爬虫—常用工具Fiddler的使用教程

网络爬虫是一种自动获取网页内容的程序，在Python中，常用的网络爬虫工具主要包括Python编程语言、PyCharm集成开发环境（IDE）、浏览器和Fiddler。Python是一种通用的编程语言，广泛用于网络爬虫的开发。它提供了丰富的库和模块，如Requests、BeautifulSoup和Scrapy，这些库可以帮助我们发送HTTP请求、解析HTML页面以及提取所需的数据。

原创 2024-04-18 17:38:29 · 607 阅读 · 0 评论
2.Python网络爬虫—什么是网络爬虫(下篇)？

Python是构建网络爬虫的热门选择，它拥有一系列强大的库和框架来支持网络爬虫的开发。Scrapy：这是一个为了爬取网站数据、提取结构性数据而编写的应用框架。Scrapy可以处理请求、解析内容并提取数据，同时还有处理登录、cookies和缓存的功能。：它是一个用于从网页中提取信息的库。BeautifulSoup能够通过你喜欢的转换器实现惯用的文档导航、查找、修改文档的方式。urllib：这是Python的标准库之一，包含了许多用于操作URL的函数。requests。

原创 2024-04-16 09:21:31 · 1672 阅读 · 0 评论
1.Python网络爬虫—什么是网络爬虫(上篇)？

网络爬虫是一种自动化获取万维网信息的程序或脚本。网络爬虫，也被称为网页蜘蛛或网络机器人，是设计用来自动浏览和收集网络信息的算法驱动的软件。这些程序遵循特定的规则来访问网站，并从中提取数据，这些数据随后可以被存储、分析或用于其他目的。基本概念：网络爬虫通过模拟人类用户浏览网页的方式来工作，但它们以自动化的方式执行这一过程，能够快速地处理和分析大量网页。工作原理：网络爬虫从一个或多个初始网页开始，通常由用户指定，然后按照设定好的算法对网页内容进行爬取，并将数据保存到数据库中。

原创 2024-04-15 18:35:26 · 1422 阅读 · 0 评论

Python网络爬虫基础入门

作者: 摘星月为妆。

14.网络爬虫—数据提取2-正则表达式规则详讲

13.网络爬虫—数据提取1-正则表达式基础入门

12.网络爬虫—深入探索Requests库的进阶用法

11.网络爬虫—深入探索Requests库的基本用法

10.网络爬虫—URLError监控与故障排除指南

9.网络爬虫—理解并利用Cookie进行高级网页抓取

8.网络爬虫—深入理解Ajax请求与SSL证书验证

7.网络爬虫—Urllib库的进阶教学(伪装自己)

6.网络爬虫—Post请求与实战

5.网络爬虫—Requests模块Get请求与实战

4.Python网络爬虫—使用Urllib库爬取数据

3.Python网络爬虫—常用工具Fiddler的使用教程

2.Python网络爬虫—什么是网络爬虫(下篇)？

1.Python网络爬虫—什么是网络爬虫(上篇)？