BeautifulSoup中文乱码解决问题 python 爬虫乱码

最新推荐文章于 2023-07-28 17:58:59 发布

zz198808

最新推荐文章于 2023-07-28 17:58:59 发布

阅读量2.3k

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/zz198808/article/details/9263021

版权

Python 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

 
    importurllib2
 
fromBeautifulSoup importBeautifulSoup
 
 
 
page=urllib2.urlopen('http://www.leeon.me');
 
soup=BeautifulSoup(page,fromEncoding="gb18030")
 
 
 
printsoup.originalEncoding
 
printsoup.prettify()

如果中文页面编码是gb2312，gbk，在BeautifulSoup构造器中传入fromEncoding=”gb18030″参数即可解决乱码问题，即使分析的页面是utf8的页面使用gb18030也不会出现乱码问题！

转载自：《beautifulsoup解析中文网页乱码》

2012.9.19更新：

实际上，fromEncoding=”gb18030″并不是一劳永逸的方法，当面对iso-8859-1编码的中文网页时，还是会出现乱码。

BS会乱码的根源是：其内部猜测编码的机制并不完善。

因此，最根本的解决方法是，使用编码自动检测工具，获得网页真实编码，例如chardet这个模块。然后将获取到的encoding设置到BS的fromEncoding构造参数中！！！

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zz198808

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

解决Python BeautifulSoup中文乱码问题

DevForge的博客

10-06

701

在上述示例中，我们使用chardet.detect()函数检测网页的编码方式，并将其存储在encoding变量中。然后，我们使用response.content.decode()方法将网页内容从检测到的编码方式转换为UTF-8，并将其存储在text变量中。然后，我们使用BeautifulSoup解析网页时，将’html.parser’作为解析器，并将response.text作为输入。根据具体情况，选择适合的方法来解决中文乱码问题，以确保正确解析网页中的中文内容。如果你还有其他问题，请随时提问。

bs4 乱码_Python BeautifulSoup中文乱码问题的2种解决方法

weixin_42475535的博客

01-17

2787

Python BeautifulSoup中文乱码问题的2种解决方法解决方法一：使用python的BeautifulSoup来抓取网页然后输出网页标题,但是输出的总是乱码,找了好久找到解决办法,下面分享给大家首先是代码复制代码代码如下:from bs4 import BeautifulSoupimport urllib2url = 'http://www.jb51.net/'page = urll...

参与评论您还未登录，请先登录后发表或查看评论

关于Python beautifulsoup 输出中文乱码问题

u012783669的博客

06-18

7544

我在学习网络爬虫的过程中遇到一个很奇怪的问题，爬取同一个网站的不同页面（编码方式都为'gb2312'）时，beautifulsoup有时候输出中文是正常的有时候是乱码。查找资料：http://bbs.chinaunix.net/thread-4084647-1-1.html上面说：表面上看起来从BeautifulSoup解析后得到的soup，打印出来是乱码，但是实际上其本身已经是，正确的（从原始的...

python BeautifulSoup解决中文乱码问题

weixin_34397291的博客

04-08

653

刚开始用BeautifulSoup抓取网页，遇到中文乱码问题，在网上搜了一些方法，先记录于此，看看哪种方法好用 1、http://leeon.me/a/beautifulsoup-chinese-page-resolve import urllib2 from BeautifulSoup import BeautifulSoup page = urllib2...

Python BeautifulSoup中文乱码问题

weixin_45401179的博客

12-12

1825

今天使用BeautiSoup遇到乱码，在网上找到解决方案，特地记录一下 1、先查看网页的编码格式一般是在网页的开头 2、将requests的结果修改为相对应的编码格式 res1=requests.get(url,headers=head) res1.encoding='utf-8' soup1=BeautifulSoup(res1.text,'lxml') 3、再正常的使用BeautiSoup就好了 ...

Python BeautifulSoup中文乱码问题的2种解决方法

热门推荐

GYZ的csdn

04-18

2万+

解决方法一：使用python的BeautifulSoup来抓取网页然后输出网页标题,但是输出的总是乱码,找了好久找到解决办法,下面分享给大家首先是代码 from bs4 import BeautifulSoup import urllib2 url = 'http://www.jb51.net/' page = urllib2.urlopen(url) soup = Beau

Python网络爬虫实践：BeautifulSoup解决乱码问题

本篇文章主要介绍了使用 Python 进行网络爬虫的基本方法和注意事项，以及使用 BeautifulSoup 解析网页的中文乱码问题。一、Python 抓取网页方法使用 Python 抓取网页主要涉及到两个模块：urllib2 和 urllib。...

python爬虫爬取网页解决中文乱码问题

tianyouououou的博客

05-21

2420

场景使用requests爬取网页+beautifulsoup4解析。出现网页内中文乱码问题解决步骤 1. 在网页页面点击右键查看网页源代码 2.查看编码方式 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml

python BeautifulSoup乱码问题

jhoojhooablido

12-18

1292

用爬虫爬取天气数据，需要先获得原网站上城市中文名称与汉语拼音的对应关系。在编写如下代码进行处理的时候，出现中文乱码。查了很多blog发现方法并不好使。除了这位大神。。。。。这位出现问题就去阅读文档的大神。。。。 https://www.jianshu.com/p/69401b84419e 查阅requests和bs4的官方文档，发现了这样两段描述： When you make a requ...

python爬取网页有乱码怎么解决_python用beautifulsoup爬取网页时出现乱码的解决方法...

weixin_39990660的博客

11-21

686

一、原因：在用beutifulsoup爬取网页的信息时，我们会遇到信息变成乱码的情况，之所以出现这种情况，是因为requests和beautifulsoup模块都会自行评测原网页的编码格式。二、解决办法：（1）查看网页编码格式：既然要将soup中编码格式改为正确的，那我们首先就要知道你要爬取的网页编码格式是什么。首先是F12—>到控制台Console—>输入document.charset。此处的...

Python3.x：BeautifulSoup()解决中文乱码问题

amberom的专栏

07-28

2500

问题：　　BeautifulSoup获取网页内容，中文显示乱码；解决方案：　　遇到情况也是比较奇葩，利用chardet获取网页编码，然后在BeautifulSoup构造器中传入from_encoding=参数，获取的还是一堆乱码；无奈之下，在网络上大搜索一通，结果还是没搞清楚原因，但是问题倒是找到了解决方案；在这里提供下，给遇到同样问题的码友：如果中文页面编码是gb2312，gbk，在BeautifulSoup构造器中传入from_encoding="gb18030"参数即可解决乱码

bs4 乱码_python使用beautifulsoup乱码问题

weixin_36250220的博客

02-15

369

使用BeautifulSoup中的find_all方法输出中文乱码，为ASCII码，但输出是一个对象，不能使用decode()和encode()，不知该如何转换代码如下：#coding:utf-8import urllib2from sgmllib import SGMLParserfrom bs4 import BeautifulSoupimport reimport sysreload(sys...

记录BeautifulSoup 提取中文时候出现乱码如何解决

BeautifulSoup中文乱码解决问题 python 爬虫 乱码

BeautifulSoup中文乱码解决问题 python 爬虫乱码