解决python爬虫中文乱码问题

今天在用python爬取网页数据时中文显示乱码,最终发现是目标网页编码与python默认编码‘utf-8’不一致导致的。下面把解决方法与大家分享。

step1:查看目标网页编码方式

在各种浏览器打开的任意页面上使用F12功能键,即可使用开发者工具,在窗口console标签下,键入“document.charset” 即可查看网页的编码方式。如网页链接: http://www.tianqihoubao.com/aqi/lanzhou-201812.html的编码为“GBK”。
在这里插入图片描述

step2:对目标网页转码

url="http://www.tianqihoubao.com/aqi/lanzhou-201812.html"
try:
    html=urlopen(url)
except HTTPError as e:
    print (e)
else:
    #目标网页编码为'GBK',python默认编码为'utf-8',为解决中文乱码问题,对目标网页进行解码再编码
    bsobj=BeautifulSoup(html.read().decode('GBK').encode('utf-8') )

step3:爬取数据并保存

# -*- coding: utf-8 -*-
from urllib.request import urlopen
from bs4 import BeautifulSoup
import urllib.parse
import pandas as pd

url="http://www.tianqihoubao.com/aqi/lanzhou-201812.html"
try:
    html=urlopen(url)
except HTTPError as e:
    print (e)
else:
    #目标网页编码为'GBK',python默认编码为'utf-8',为解决中文乱码问题,先对目标网页进行解码再编码
    bsobj=BeautifulSoup(html.read().decode('GBK').encode('utf-8') )
#获取标签为tr的数据
data=bsobj.findAll('tr')
con=[]
#取出表头
for i in data[0:1]:
    title=i.get_text().strip().split("\n\n")
print (title)
#取表格中的内容
for i in data[1:]:
    contents=i.get_text()
    con.append(contents.replace(" ","").replace("\n\r","").replace("\r\n","").strip().split("\n"))
#将数据放到DataFrame中并写入csv文件保存
air_data=pd.DataFrame(con,columns=title)
print (air_data)
air_data.to_csv('air.csv',index=None)

保存的数据详情:
在这里插入图片描述

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python网络爬虫过程中,遇到汉字乱码问题是比较常见的情况。根据引用\[1\]中提到的方法,我可以给你提供一些解决乱码问题的方法。 首先,你可以尝试使用引用\[2\]中的方法,即对于编码为utf-8的网址,进行两次重编码。你可以使用requests库发送请求,并在获取到的响应中设置编码为'GBK',然后再将编码设置为'utf-8'。这样可以解决一些网页中文乱码问题。 另外,你还可以尝试使用其他的编码方式来解决乱码问题。比如,可以尝试将编码设置为'gb2312',如引用\[2\]中提到的方法。这种方法适用于网址编码为'gb2312'的情况。 综上所述,解决Python爬虫中文乱码问题的步骤可以总结为: 1. 使用requests库发送请求获取网页内容。 2. 根据网页编码设置响应的编码方式,可以尝试设置为'GBK'或'gb2312'。 3. 如果仍然存在乱码问题,可以尝试进行多次编码转换,如将编码设置为'utf-8'。 希望以上方法能够帮助你解决Python爬虫中文乱码问题。如果还有其他问题,请随时提问。 #### 引用[.reference_title] - *1* [盘点3种Python网络爬虫过程中的中文乱码的处理方法](https://blog.csdn.net/i54996/article/details/120749614)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* *3* [Python爬虫中文乱码问题](https://blog.csdn.net/wvqusrtg/article/details/113742520)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值