python爬虫快速入门，基本知识

最新推荐文章于 2023-03-13 09:33:32 发布

静思深学

最新推荐文章于 2023-03-13 09:33:32 发布

阅读量491

点赞数

分类专栏：笔记文章标签： django python list

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47433238/article/details/121537574

版权

笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章目录

前言
- 综合案例

前言

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

提示：

快捷键

Ctrl+/ 批量注释，选中后按

主函数

在这里插入图片描述

库

在这里插入图片描述

requests请求库

发送请求获取响应数据

在这里插入图片描述

Beautiful Soup库

Beautiful Soup是一个可以从html或xml文件中提取数据的python库
在这里插入图片描述

BeautifulSoup对象的find方法

用来搜索文档树

在这里插入图片描述

例：
在这里插入图片描述

正则表达式

一种字符串匹配的模式

作用：

检查一个字符串是否含有某种子串
替换匹配的字符串
提取某个字符串中匹配的子串

在这里插入图片描述

在这里插入图片描述

findall方法
扫描整个string字符串，返回所有与pattern匹配的列表

pattern：正则表达式
string：从哪个字符串中查找
flags：匹配模式
返回：返回string中与pattern匹配的结果列表

在这里插入图片描述
r原串的使用

正则中使用r原始字符串，能够忽略转义字符带来的影响
待匹配的字符串中有多少个\，r原串正则中就添加多少个\即可
在这里插入图片描述

在这里插入图片描述

json模块

json模块是python自带的模块，用于json和python数据之间的相互转换

对应关系
在这里插入图片描述
json转换为python

python转换为json
在这里插入图片描述

例：

在这里插入图片描述
综合案例–解析最新的疫情数据的json字符串

综合案例

采集近一日世界各国疫情数据
在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫快速入门，基本知识

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。