【python笔记002】：字符串、正则表达式和爬虫基本库urllib、requests操作

最新推荐文章于 2024-01-19 16:29:05 发布

闲人老范

最新推荐文章于 2024-01-19 16:29:05 发布

阅读量328

点赞数

分类专栏： python学习笔记文章标签： python 正则表达式 http

本文链接：https://blog.csdn.net/zlnmn/article/details/104312152

版权

本文详细介绍了Python中的字符串与正则表达式，包括字符串基础、正则匹配方法，以及http与https的基本知识。同时，文章还探讨了爬虫的基础概念，讲解了urllib库和requests库的操作，包括请求头、响应头、代理和cookie的处理，并讨论了多任务操作，如线程、进程和协程。

摘要由CSDN通过智能技术生成

第一章字符串和正则表达式

概述：re内置模块，match方法，参数：正则，字符串；返回值的group方法提取；

1.多个字符在这里插入图片描述
2. 符号？的应用场景，比如电话号码的“-”，
3. re.S参数思考，“”“jgjgjg”“”，可以换行，内容可打印；4. 匹配开头结尾：
5. 实例：

分组和转义字符
转义字符\：如果email当中的"."、"?“等与正则冲突的字符，”"反斜杠充当转义字符；

例如：re.match(r"[a-zA-Z0-9_]{4,20}@163.com$",email)
或字符|：re.match(r"[a-zA-Z0-9_]{4,20}@(163|126).com$",email)
分组（）:

search方法：只找一次；随意位置匹配 ret=re.search(r"\d+“，“阅读次数为9999”)；ret.group()；
findall方法：弥补search弱点，不用group,返回列表；
sub方法：替换后返回，不限制次数，
sub支持函数调用：
$C:\Users\fan\AppData\Roaming\Typora\typora-user-images\image-20200213131136019.png$
split方法：
$C:\Users\fan\AppData\Roaming\Typora\typora-user-images\image-20200213131329180.png$