python爬虫，requests库，正则表达式，自动换行，爬虫实践，Beautiful Soup库

最新推荐文章于 2024-06-03 08:30:00 发布

略懂一点的少年

最新推荐文章于 2024-06-03 08:30:00 发布

阅读量1.4k

点赞数 2

分类专栏： python

本文链接：https://blog.csdn.net/weixin_46964231/article/details/119594860

版权

2 篇文章 0 订阅

订阅专栏

一，爬虫

二，requests库

三，Urllib库

四，正则表达式

正则表达式是对字符串操作的逻辑公式，它创造一组规则，用来表达对字符的一种过滤逻辑
python的正则表达式封装在re库中
re.FindAll(‘字符’，参数)方法（这个方法的意思是在参数里面执行字符，将需要的东西选出来），
字符描述
\w 匹配字母，数字及下划线
\d 匹配任意数字
. 匹配任意字符，除了换行符
‘*’ 匹配0个或多个表达式
如下图

五，自动换行
六，爬虫实践
爬虫的头：爬虫抓取数据时，必须要有一个目标的URL地址，这个请求的URL地址就有请求头，请求体，而我们去进行爬取的过程是没有请求头的，这时候网页的反爬虫机制就会启动，所以说我们需要模拟一个请求头，这样我们就能够爬到数据了。
URL的背后：我们在进行URL操作的时候，它不只是发送一个URL地址给数据库，背后有很多的操作，我们可以通过点击电脑键盘的F12，进行查看，如下图。
如果我们要头部文件，我可以直接在Network进中找到
接下来试一下爬取豆瓣读书的数据，入下图，假设我要爬取作妖这个数据

七，Beautiful Soup
概念：Beautiful Soup库是一个可以从HTML或者XML文件提取数据的Python库，它可以很好的处理不规范的标记并生成剖析树
安装：这个库需要在项目中导入bs4
cmd命令：pip install beautifulsoup4 就可以安装Beatiful Soup 4。

关注

专栏目录