笔记001:BeautifulSoup中的find_all和re.findall区别

wendao_lx

已于 2022-10-03 16:39:37 修改

阅读量288

点赞数

文章标签： beautifulsoup

于 2022-10-03 16:29:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wendao_lx/article/details/127153245

版权

1.使用re.findall('<div id="content">(.*?)</div>',requests1_html.content.decode('gbk'),re.S)

down_dz = 'https://XXXXXXX.html'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:105.0) Gecko/20100101 Firefox/105.0'}
requests1_html = requests.get(down_dz, headers=headers)
requests1_html.encoding = 'gbk'
contents = re.findall('<div id="content">(.*?)</div>',requests1_html.content.decode('gbk'),re.S)
for content in contents:
    content = str(content).replace('<br />', '')
    content = str(content).replace('&nbsp;', '')
    print(content)
    with open('file/test01.txt','a+',encoding='gbk') as test1:
        test1.write(content)

注意：content前面要加上str()，做转换

运行结果是

2.使用BeautifulSoup中的find_all也可以达到异曲同工的效果

down_dz = 'https://XXXXXXX.html'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:105.0) Gecko/20100101 Firefox/105.0'}
requests1_html = requests.get(down_dz, headers=headers)
requests1_html.encoding = 'gbk'
soup1 = BeautifulSoup(requests1_html.text, "lxml")
# print(soup1)
for link1 in soup1.find_all(id="content"):
    link1 = str(link1).replace('<br>', '')
    link1 = link1.replace('<br/>\n', '')
    link1 = link1.replace('<br/>', '')
    link1 = link1.replace('<div id="content">', '')
    link1 = link1.replace(('</div>'), '')
    print(link1)

感觉要多几行代码，运行结果如下

注意： for link1 in soup1.find_all(id="content"):

这个是关键

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

wendao_lx CSDN认证博客专家 CSDN认证企业博客

码龄13年

15: 原创

58万+: 周排名

126万+: 总排名

2万+: 访问

: 等级

173: 积分

4: 粉丝

14: 获赞

10: 评论

22: 收藏

私信

关注

热门文章

最新评论

python使用微信库wxpy报错问题解决
元俊up: 后来你怎么实现的功能呢？放弃了？
python使用微信库wxpy报错问题解决
元俊up: 你找到方法了吗？一起交流一下
python使用微信库wxpy报错问题解决
元俊up: 所有有解决办法吗？我也在找可用的机器人
python使用微信库wxpy报错问题解决
weixin_669646: 那到底怎么用呢
os.system(“pause“)乱码的解决
CSDN-Ada助手: 恭喜您写了第15篇博客！标题“os.system("pause")乱码的解决”非常吸引人。阅读了您的文章之后，我对如何解决这个乱码问题有了更深入的了解。您对这个主题的解析非常清晰，让我受益匪浅。不过，我也想提供一些建议，希望能对您的下一步创作有所帮助。我认为在您的博客中，可以进一步探讨一些与乱码相关的常见问题，并提供更多解决方案。此外，您可以尝试与读者互动，了解他们对乱码问题的疑问，从而提供更加实用的解决方案。再次恭喜您的持续创作，期待看到更多精彩的博客！谢谢您的分享！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。