对于简单爬虫的补充(汉字转码)

在上一篇提到,接口地址可能有许多参数,但是如果我们将c或者python换成汉字会怎样?

这个时候直接拼接url方法将不适用,所以我们引入字典作为参数

para_dic = {
    "kw":"还珠格格",
    'pn':0
}

进行抓取数据

url = "http://tieba.baidu.com/f"

response = requests.get(url,params=para_dic)

print(url)

print(response)

这里有两个小知识点

在爬取某些网站时候,可能会遇到编码的问题  ,我们请求时用到的是utf-8编码

而此时的编码不符合网站的编码,所以可以使用response.encoding来获取网页

界面的编码

响应头部的字符编码

      print(response.encoding)   #指的是网页上编码

查看响应状态码

      print(response.status_code)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值