requests爬取中文网页时中文字符变英文的解决方法

在使用python requests库爬取网页时,源代码中的中文字符在爬取下来后变成了英文字符
例如:
import requests
 r = requests.get('http://apps.webofknowledge.com', headers = {'User-Agent': 'Mozilla/5.0'})
print(r.text[:1000])
结果为:
'<!DOCTYPE html>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    <html>                                         <head><link rel="icon" href="http://images.webofknowledge.com/WOKRS5272R3/images/wok_favicon.ico" type="image/x-icon"/><title>Web of Science [v.5.27.2]  -      All Databases Home  </title><link rel="stylesheet" href="http://images.webofknowledge.com/WOKRS5272R3/css/WoKcommon.css" type="text/css" /><link rel="stylesheet" href="http://images.webofknowledge.com/WOKRS5272R3/css/WoKcomponents.css" type="text/css" /><link rel="stylesheet" h'

而网页源代码确是这样的:


显然,源代码中的中文字符“所有数据库主页”在爬下来后变成了英文“All Databases Home”

解决方法:
在请求头headers中添加‘ Accept-Language':'zh-CN',即请求代码变为:

import requests
 r = requests.get('http://apps.webofknowledge.com', headers = {'User-Agent': 'Mozilla/5.0', 'Accept-Language':'zh-CN' })
print(r.text[:1000])
结果就OK了:
'<!DOCTYPE html>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    <html>                                         <head><link rel="icon" href="http://images.webofknowledge.com/WOKRS5272R3/images/zh_CN/wok_favicon.ico" type="image/x-icon"/><title>Web of Science [v.5.27.2]  -      所有数据库主页  </title><link rel="stylesheet" href="http://images.webofknowledge.com/WOKRS5272R3/css/WoKcommon.css" type="text/css" /><link rel="stylesheet" href="http://images.webofknowledge.com/WOKRS5272R3/css/WoKcomponents.css" type="text/css" /><link rel="stylesheet" href="'


评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值