Python爬虫学习第二章-3-使用requests模块实现破解百度翻译

最新推荐文章于 2023-12-16 21:41:23 发布

BreezeChasingDrizzle

最新推荐文章于 2023-12-16 21:41:23 发布

阅读量485

点赞数

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/weixin_44032178/article/details/109181490

版权

爬虫专栏收录该内容

19 篇文章 2 订阅

订阅专栏

Python爬虫学习第二章-3-使用requests模块实现破解百度翻译

这一节是使用requests模块进行破解百度翻译
1、在这个案例中不是爬取整张页面，而是爬取部分内容，也就是翻译的结果，所以得需要解析（ajax请求可以进行页面局部的刷新，而在这个案例中，页面恰好是输入单词之后进行局部刷新，所以是ajax请求），此时对应的请求是一个post请求，并且此请求携带参数。-响应数据是一组json数据
2、步骤：

在这个案例中，我们需要抓取的是翻译后的结果，也就是一部分页面，所以不能对地址栏中的“https://fanyi.baidu.com/?aldtype=16047#auto/zh”发起请求。对于百度翻译这个页面，每输入一个字符页面都会自动进行部分刷新，这是依靠了ajax的请求，所以说需要通过抓包工具（inspect—>network—>XHR）查看Ajax发送的请求，也就是XHR。通过Request Method可以发现是post请求，所以需要使用requests.post()方法。（也可以用数据解析方法获取局部数据，后边会介绍）
指定了url之后要紧跟着进行UA伪装，也就是
headers = {‘User-Agent’:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36’}，确保发送请求能够成功。
UA伪装结束之后要进行参数处理，当然如果这个请求没有参数的话，可以不用进行处理，携带的参数可以在最下面的From Data中查看。
然后发送请求，定义一个resonance接收响应数据。
从response中获取数据，在这个案例中服务器响应的是json数据，json方法返回的就是一个字典对象，如果确认响应数据是json类型的，才可以使用json方法，可以在抓包工具中查看Content-Type确定响应数据的类型。
进行持久化存储,因为响应数据是json对象，字典类型的，所以可以直接存放在json的文本文件当中，得先导入json模块。

3、实现的代码：

'''
步骤：指定url即指定网址进行UA伪装；对当前url发起请求，如get请求；获取服务器响应的数据，如显示的页面数据；将爬取到的响应数据进行持久化存储
-此时不是爬取整张页面，而是爬取部分内容，也就是翻译的结果，所以得需要解析（ajax请求可以进行页面局部的刷新）
        -此时对应的请求是一个post请求，并且此请求携带参数。
            -响应数据是一组json数据
'''
import requests
import json
if __name__=="__main__":
    #1、指定url
    post_url = 'https://fanyi.baidu.com/sug' #这个程序中的url需要从抓包工具中获取Ajax请求的url

    #2、进行UA伪装
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36'
    }    #在url之后要紧接着进行UA伪装，也是定义一个headers

    #3、进行post请求的参数处理，同get请求的参数处理，。post方法的data参数所对应的数据是请求所携带的参数，相当于get请求中的params，也应该是一个字典，封装了url的参数
    word = input('enter a word:')
    data = {
        'kw':word
    }
    #4、请求发送，post请求发送成功之后也会返回一个响应数据，保存在response中
    response=requests.post(post_url,data = data,headers=headers)

    #5、获取响应数据,在这个案例中服务器响应的是json数据，json方法返回的就是一个字典对象（如果确认响应数据是json类型的，才可以使用json方法，可以在抓包工具中查看Content-Type确定响应数据的类型）
    dic_obj = response.json()  #返回的是一个字典对象
    print(dic_obj)

    #6、进行持久化存储,因为响应数据是json对象，字典类型的，所以可以直接存放在json的文本文件当中，得先导入json模块
    filename = word+'.json'
    fp = open(filename,'w',encoding='utf-8')
    json.dump(dic_obj,fp=fp,ensure_ascii=False) #拿到的json串中有中文，而中文不能使用ASCII码进行编码，所以ensure_ascii应该是Fasle
    fp,close()
    print('over')

注意：
持久化存储中，响应数据是json对象，字典类型的，所以可以直接存放在json的文本文件当中，得先导入json模块；要注意使用的方法：

filename = word+'.json'
fp = open(filename,'w',encoding='utf-8')
json.dump(dic_obj,fp=fp,ensure_ascii=False) #拿到的json串中有中文，而中文不能使用ASCII码进行编码，所以ensure_ascii应该是Fasle
fp,close()

使用open方法，文件操作完毕之后必须手动关闭，否则长期保持对文件的连接状态，造成内存溢出的现象发生。

BreezeChasingDrizzle

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
Python爬虫学习第二章-3-使用requests模块实现破解百度翻译

Python爬虫学习第二章-3-使用requests模块实现破解百度翻译这一节是使用requests模块进行破解百度翻译 1、在这个案例中不是爬取整张页面，而是爬取部分内容，也就是翻译的结果，所以得需要解析（ajax请求可以进行页面局部的刷新，而在这个案例中，页面恰好是输入单词之后进行局部刷新，所以是ajax请求），此时对应的请求是一个post请求，并且此请求携带参数。-响应数据是一组json数据 2、步骤：在这个案例中，我们需要抓取的是翻译后的结果，也就是一部分页面，所以不能对地址栏
复制链接

扫一扫