使用requests和beautifulsoup模块爬取网页数据时,有时会出现乱码情况,如下所示:
需要爬去的网页的编码格式为:
Pyhton代码如下所示:
import requests from bs4 import BeautifulSoup
def get_content(url): content_data=requests.get(url) #下面这句话去掉则乱码,加上则正常显示,编码格式gb2312是根据网页源代码中设置的编码格式来指定的 content_data.encoding='gb2312' soup=BeautifulSoup(content_data.text,"html.parser") content=soup.select("#f_article > p") return content[0].get_text()
正常编码: