笔记003：记录BeautifulSoup 提取中文时候出现乱码如何解决

最新推荐文章于 2023-07-28 17:58:59 发布

wendao_lx

最新推荐文章于 2023-07-28 17:58:59 发布

阅读量1.2k

点赞数 1

文章标签： beautifulsoup python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wendao_lx/article/details/127160330

版权

今天提取某网站的网页中的中文，发现出现乱码，将解决的方法记录一下

1、开始时候代码如下，

        for html in html_list:
            requests_html = requests.get(html2, headers=headers)
            requests_html.encoding = 'utf-8'
            bs_html = BeautifulSoup(requests_html.text, "lxml")
            for link in bs_html.find_all("a",{"class":{"ulink"}}):
                print(bs_html.find_all("a",{"class":{"ulink"}}))

这个地方

requests_html.encoding = 'utf-8'

一般提取网页中文时候都不会出现乱码，但是恰巧今天碰到了，运行出现下面

中文全部是乱码，改成gbk也不行，不指定编码也不行

我用火狐浏览器打开网站地址，发现是gb2312编码

        for html in html_list:
            requests_html = requests.get(html2, headers=headers)
            requests_html.encoding = 'gb2312'
            bs_html = BeautifulSoup(requests_html.text, "lxml")
            for link in bs_html.find_all("a",{"class":{"ulink"}}):
                print(bs_html.find_all("a",{"class":{"ulink"}}))

修改后中文显示正常

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

wendao_lx CSDN认证博客专家 CSDN认证企业博客

码龄13年

15: 原创

58万+: 周排名

121万+: 总排名

2万+: 访问

: 等级

173: 积分

4: 粉丝

14: 获赞

10: 评论

22: 收藏

私信

关注

热门文章

最新评论

python使用微信库wxpy报错问题解决
元俊up: 后来你怎么实现的功能呢？放弃了？
python使用微信库wxpy报错问题解决
元俊up: 你找到方法了吗？一起交流一下
python使用微信库wxpy报错问题解决
元俊up: 所有有解决办法吗？我也在找可用的机器人
python使用微信库wxpy报错问题解决
weixin_669646: 那到底怎么用呢
os.system(“pause“)乱码的解决
CSDN-Ada助手: 恭喜您写了第15篇博客！标题“os.system("pause")乱码的解决”非常吸引人。阅读了您的文章之后，我对如何解决这个乱码问题有了更深入的了解。您对这个主题的解析非常清晰，让我受益匪浅。不过，我也想提供一些建议，希望能对您的下一步创作有所帮助。我认为在您的博客中，可以进一步探讨一些与乱码相关的常见问题，并提供更多解决方案。此外，您可以尝试与读者互动，了解他们对乱码问题的疑问，从而提供更加实用的解决方案。再次恭喜您的持续创作，期待看到更多精彩的博客！谢谢您的分享！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。