Python爬虫学习第二章-3-使用requests模块实现破解百度翻译

Python爬虫学习第二章-3-使用requests模块实现破解百度翻译

  这一节是使用requests模块进行破解百度翻译
  1、在这个案例中不是爬取整张页面,而是爬取部分内容,也就是翻译的结果,所以得需要解析(ajax请求可以进行页面局部的刷新,而在这个案例中,页面恰好是输入单词之后进行局部刷新,所以是ajax请求), 此时对应的请求是一个post请求,并且此请求携带参数。-响应数据是一组json数据
  2、步骤:

  • 在这个案例中,我们需要抓取的是翻译后的结果,也就是一部分页面,所以不能对地址栏中的“https://fanyi.baidu.com/?aldtype=16047#auto/zh”发起请求。对于百度翻译这个页面,每输入一个字符页面都会自动进行部分刷新,这是依靠了ajax的请求,所以说需要通过抓包工具(inspect—>network—>XHR)查看Ajax发送的请求,也就是XHR。通过Request Method可以发现是post请求, 所以需要使用requests.post()方法。(也可以用数据解析方法获取局部数据,后边会介绍)

  • 指定了url之后要紧跟着进行UA伪装,也就是
    headers = {‘User-Agent’:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36’},确保发送请求能够成功。

  • UA伪装结束之后要进行参数处理,当然如果这个请求没有参数的话,可以不用进行处理,携带的参数可以在最下面的From Data中查看。

  • 然后发送请求,定义一个resonance接收响应数据

  • 从response中获取数据,在这个案例中服务器响应的是json数据,json方法返回的就是一个字典对象,如果确认响应数据是json类型的,才可以使用json方法, 可以在抓包工具中查看Content-Type确定响应数据的类型。

  • 进行持久化存储,因为响应数据是json对象,字典类型的,所以可以直接存放在json的文本文件当中,得先导入json模块。

3、实现的代码:

'''
步骤:指定url即指定网址进行UA伪装;对当前url发起请求,如get请求;获取服务器响应的数据,如显示的页面数据;将爬取到的响应数据进行持久化存储
-此时不是爬取整张页面,而是爬取部分内容,也就是翻译的结果,所以得需要解析(ajax请求可以进行页面局部的刷新)
        -此时对应的请求是一个post请求,并且此请求携带参数。
            -响应数据是一组json数据
'''
import requests
import json
if __name__=="__main__":
    #1、指定url
    post_url = 'https://fanyi.baidu.com/sug' #这个程序中的url需要从抓包工具中获取Ajax请求的url

    #2、进行UA伪装
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36'
    }    #在url之后要紧接着进行UA伪装,也是定义一个headers

    #3、进行post请求的参数处理,同get请求的参数处理,。post方法的data参数所对应的数据是请求所携带的参数,相当于get请求中的params,也应该是一个字典,封装了url的参数
    word = input('enter a word:')
    data = {
        'kw':word
    }
    #4、请求发送,post请求发送成功之后也会返回一个响应数据,保存在response中
    response=requests.post(post_url,data = data,headers=headers)

    #5、获取响应数据,在这个案例中服务器响应的是json数据,json方法返回的就是一个字典对象(如果确认响应数据是json类型的,才可以使用json方法,可以在抓包工具中查看Content-Type确定响应数据的类型)
    dic_obj = response.json()  #返回的是一个字典对象
    print(dic_obj)

    #6、进行持久化存储,因为响应数据是json对象,字典类型的,所以可以直接存放在json的文本文件当中,得先导入json模块
    filename = word+'.json'
    fp = open(filename,'w',encoding='utf-8')
    json.dump(dic_obj,fp=fp,ensure_ascii=False) #拿到的json串中有中文,而中文不能使用ASCII码进行编码,所以ensure_ascii应该是Fasle
    fp,close()
    print('over')

注意:
  持久化存储中,响应数据是json对象,字典类型的,所以可以直接存放在json的文本文件当中,得先导入json模块;要注意使用的方法:

filename = word+'.json'
fp = open(filename,'w',encoding='utf-8')
json.dump(dic_obj,fp=fp,ensure_ascii=False) #拿到的json串中有中文,而中文不能使用ASCII码进行编码,所以ensure_ascii应该是Fasle
fp,close()

使用open方法,文件操作完毕之后必须手动关闭,否则长期保持对文件的连接状态,造成内存溢出的现象发生。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值