python re sub

最新推荐文章于 2024-02-24 23:09:05 发布

jingxindeyi

最新推荐文章于 2024-02-24 23:09:05 发布

阅读量182

点赞数

文章标签： re

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zslngu/article/details/88686667

版权

抓取小说的时候需要去掉html标签

Beautiful 可以去掉标签，但是对于script 中的js代码也保存了下来，因此先去掉所有的js标签

re.sub(`pattern`, `repl`, `string`, `count=0`, `flags=0`)

`pattern`, `repl`, `string` 为必选参数
`count`, `flags` 为可选参数
`pattern`正则表达式
`repl`被替换的内容，可以是字符串，也可以是函数
`string`正则表达式匹配的内容
`count`由于正则表达式匹配的结果是多个，使用count来限定替换的个数从左向右，默认值是0，替换所有的匹配到的结果
`flags`是匹配模式，`re.I`忽略大小写，`re.L`表示特殊字符集\w,\W,\b,\B,\s,\S，`re.M`表示多行模式，`re.S` ‘.’包括换行符在内的任意字符，`re.U`表示特殊字符集\w,\W,\b,\B,\d,\D,\s,\D

替换部分代码

def f(groups):
    return ''
patt = '(<script>.*?</script>)'
t= re.sub(patt, f, t, flags=re.S)  # 这里要注意 re.sub 第四个参数是 counts 之前在写的时候 没有写flags，re.S 被认为是参数counts，导致少去掉一个script

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

jingxindeyi CSDN认证博客专家 CSDN认证企业博客

码龄7年

201: 原创

3万+: 周排名

1万+: 总排名

10万+: 访问

: 等级

2644: 积分

76: 粉丝

94: 获赞

19: 评论

142: 收藏

私信

关注

热门文章

分类专栏

工具推荐 1篇
日记
古文 2篇
算法 2篇
个人兴趣开发 7篇
诗词 1篇
入门学习 18篇
开发问题 2篇
排序 3篇
刷题 99篇
vue 2篇
环境配置 10篇
android 2篇
java 17篇

最新评论

leetcode-643. 子数组最大平均数 I
CSDN-Ada助手: 不知道算法技能树是否可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
leetcode-169-多数元素
CSDN-Ada助手: 推荐算法技能树：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
leetcode-30. 串联所有单词的子串
CSDN-Ada助手: 推荐算法技能树：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
idea 输出乱码
提及:
最小编辑距离
彼方: 今天点赞次数用完了，收藏支持一下，大佬分析的很到位，明白了很多，大赞！（￣ˇ￣)，大佬有兴趣也可以看下我的博客哈

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。