Python每日一记67>>>python爬取斗破苍穹小说与正则表达式应用

之前我们对爬取内容的解析都是使用beautifulsoup,解析库,我们如果使用正则表达式就不需要用解析库了。
这里直接对实例进行讲解,爬取斗破苍穹小说
在这里插入图片描述
在这里插入图片描述

以上代码需要解释的是:findall函数内的内容

findall(),这是re库中的函数,用来匹配所有符合规律的内容,并以列表的形式返回结果

(.?)

’ 就是待匹配的内容,这里使用了正则表达式的方法,返回的是括号内的所有字符,而p则代表着段落的开始和结束。
res.content.decode(‘utf-8’)是对爬取得内容的一种表达方式,进行了解码
我们可以看看其本身返回的结果,其文本内容正好在

之间,我们想要的就是其之间的内容,就可以’

**(.?)**

’ ,返回所有

之间的内容了。
在这里插入图片描述
在这里插入图片描述
每一章内容的链接大家就自己去找规律咯
另外关于python requests中content与text方法的区别,可参考以下链接:
https://blog.csdn.net/Erice_s/article/details/80115895

事实上我们使用text会出现乱码
在这里插入图片描述
在这里插入图片描述
print(res.content.decode(‘utf-8’))
#print(res.text)
这两者返回的结果是一样的,但是print(res.content.decode(‘utf-8’)),不会出现乱码的情况。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值