Python学习的知识复盘（爬虫，字符串，函数调用）

龙城烟柳旧人殇

已于 2022-10-07 11:27:26 修改

阅读量374

点赞数

文章标签：学习 python 开发语言

于 2022-10-02 18:05:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_57523008/article/details/127144908

版权

本文总结了Python学习的重点，包括网络爬虫的分类、步骤和实践，如通用爬虫和聚焦爬虫，以及请求、响应和数据保存。此外，还详细介绍了Python字符串的处理方法，如分割、合并和检索，正则表达式的应用，以及函数的定义和调用，包括参数传递和局部/全局变量的概念。

摘要由CSDN通过智能技术生成

目录

一、网络爬虫总结

1.爬虫的分类

2.爬虫的步骤

二、Python课堂学习总结

2.正则表达式

3.函数的定义和调用

三、学习心得

一、网络爬虫总结

爬虫（又称为网页蜘蛛，网络机器人，在 FOAF 社区中间，更经常的称为网页追逐者）；它是一种按照一定的规则，自动地抓取网络信息的程序或者脚本。

1.爬虫的分类

通用爬虫

通用网络爬虫从互联网中搜集网页，采集信息，这些网页信息决定着整个引擎系统的内容是否丰富，信息是否即时，因此其性能的优劣直接影响着搜索引擎的效果。

通用搜索引擎所返回的结果都是网页，而大多情况下，网页里90%的内容对用户来说都是无用的。通用搜索引擎大多提供基于关键字的检索，难以支持根据语义信息提出的查询，无法准确理解用户的具体需求。

聚焦爬虫

聚焦爬虫是"面向特定主题需求"的一种网络爬虫程序，它与通用搜索引擎爬虫的区别在于：聚焦爬虫在实施网页抓取时会对内容进行处理筛选，尽量保证只抓取与需求相关的网页信息, 如12306抢票，或专门抓取某一个（某一类）网站数据。

根据url地址和对应的页面内容是否改变，数据增量爬虫可以分为：

（1）基于url地址变化、内容也随之变化的数据增量爬虫
（2）url地址不变、内容变化的数据增量爬虫

2.爬虫的步骤

发起请求：Request

Request 对象是从客户端向服务器发出请求，包括用户提交的信息以及客户端的一些信息。客户端可通过 HTML 表单或在网页地址后面提供参数的方法提交数据。然后服务器通过 request 对象的相关方法来获取这些数据。request 的各种方法主要用来处理客户端浏览器提交的请求中的各项参数和选项。

（1）Request 包含：请求 URL、请求头、请求体等

（2）Request 请求方式： GET/POST

（3）请求url: url全称统一资源定位符，一个网页文档、一张图片、一个视频等都可以用url唯一来确定

（4）请求头：User-agent：请求头中如果没有 user-agent 客户端配置，服务端可能将你当做一个非法用户；

（5）cookies： cookie 用来保存登录信息

获取响应内容

爬虫程序在发送请求后，如果服务器能正常响应，则会得到一个Response，即响应；Response 信息包含：html、json、图片、视频等，如果没报错则能看到网页的基本信息。

响应状态：

200：代表成功

301：代表跳转

404：文件不存在

403：权限

502：服务器错误

解析内容

（1）解析 html 数据：解析 html 数据方法有使用正则表达式、第三方解析库如 Beautifulsoup，pyquery 等

（2）解析 json 数据：解析 json数据可使用 json 模块

（3）解析二进制数据:以 b 的方式写入文件

保存数据

爬取的数据以文件的形式保存在本地或者直接将抓取的内容保存在数据库中&#

最低0.47元/天解锁文章

龙城烟柳旧人殇

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python学习的知识复盘（爬虫，字符串，函数调用）

python基础学习总结以及网络爬虫的了解
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。