【python笔记002】:字符串、正则表达式和爬虫基本库urllib、requests操作

本文详细介绍了Python中的字符串与正则表达式,包括字符串基础、正则匹配方法,以及http与https的基本知识。同时,文章还探讨了爬虫的基础概念,讲解了urllib库和requests库的操作,包括请求头、响应头、代理和cookie的处理,并讨论了多任务操作,如线程、进程和协程。
摘要由CSDN通过智能技术生成

第一章 字符串和正则表达式

第一节 字符串有关知识

  1. 字符串类型:str类型:unicode的呈现类型;bytes类型:互联网数据都是二进制方式传输的;
  2. 字符集概念:ascii、gb2312、gb18030,unicode主要分别对应(英语、汉语、繁体);
  3. 字符集特点:上述字符集都是定长字符集,ascii为1个字节,unicode2个字节;
  4. utf-8字符集:unicode实现方式之一,为变长编码,基本消灭各自为战的字符集形势;
  5. str和bytes转换:encode()是str类型转bytes类型;decode()是bytes转str;
  6. decode参数:decode(“utf-8”)、decode(“utf8”)、decode(“UTF_8”)皆可;
  7. 注意事项:编解码必须一一对应;有些中文是gbk编码类型,要注意;

第二节 正则表达式

概述:re内置模块,match方法,参数:正则,字符串;返回值的group方法提取;

(一)单个字符匹配

  1. 数字:"\d"等价1位数字;[123456]等价1-6;[1-6],[1-356-9],代表连续不连续;在这里插入图片描述
  2. 数字、字母:[1-8a-zA-Z]在这里插入图片描述

(二)匹配多个字符

1.多个字符在这里插入图片描述
2. 符号?的应用场景,比如电话号码的“-”,
3. re.S参数思考,“”“jgjgjg”“”,可以换行,内容可打印;在这里插入图片描述4. 匹配开头结尾:在这里插入图片描述
5. 实例:在这里插入图片描述

(三)转义、或字符

  1. 分组和转义字符在这里插入图片描述

  2. 转义字符\:如果email当中的"."、"?“等与正则冲突的字符,”"反斜杠充当转义字符;

    例如:re.match(r"[a-zA-Z0-9_]{4,20}@163.com$",email)

  3. 或字符|:re.match(r"[a-zA-Z0-9_]{4,20}@(163|126).com$",email)

  4. 分组():[在这里插入图片描述在这里插入图片描述

(四)python高级正则

  1. search方法:只找一次;随意位置匹配 ret=re.search(r"\d+“,“阅读次数为9999”);ret.group();

  2. findall方法:弥补search弱点,不用group,返回列表;在这里插入图片描述

  3. sub方法:替换后返回,不限制次数,在这里插入图片描述

  4. sub支持函数调用:
    C:\Users\fan\AppData\Roaming\Typora\typora-user-images\image-20200213131136019.png

  5. split方法:
    C:\Users\fan\AppData\Roaming\Typora\typora-user-images\image-20200213131329180.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值