Python使用bs4爬取数据时乱码问题

最新推荐文章于 2023-07-08 11:46:54 发布

MartinYangHJ

最新推荐文章于 2023-07-08 11:46:54 发布

阅读量3k

点赞数 4

分类专栏： python

本文链接：https://blog.csdn.net/yhj198927/article/details/88875552

版权

python 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

使用requests和beautifulsoup模块爬取网页数据时，有时会出现乱码情况，如下所示：

需要爬去的网页的编码格式为：

Pyhton代码如下所示：

import requests
from bs4 import  BeautifulSoup

def get_content(url):
    content_data=requests.get(url)
    #下面这句话去掉则乱码，加上则正常显示，编码格式gb2312是根据网页源代码中设置的编码格式来指定的  
    content_data.encoding='gb2312'
    soup=BeautifulSoup(content_data.text,"html.parser")
    content=soup.select("#f_article > p")
    return content[0].get_text()

正常编码：