爬虫剑谱第六页（爬取百度翻译）

最新推荐文章于 2023-01-27 19:11:29 发布

一线摸鱼人员

最新推荐文章于 2023-01-27 19:11:29 发布

阅读量179

点赞数 2

分类专栏：爬虫文章标签：百度 python 爬虫 ajax

本文链接：https://blog.csdn.net/weixin_53328988/article/details/120858619

版权

爬虫专栏收录该内容

10 篇文章 3 订阅

订阅专栏

首先打开百度翻译，进行翻译

可以看到每次搜索的单词不同，搜索结果也就不同，其中页面中显示结果的部分，也会随着结果的变化而变化，这种页面局部变化的技术称为AJax。（一会需要用到）

打开开发者选项（F12或点击鼠标左键选择检查），进入Network选择我们要捕获的数据包

因为是数据是通过Ajax技术显示的，所以我们需要选择Ajax对应的数据请求包，也就是XHR

进入以后，我们随便搜索一个单词，例如：dog

图1图2 图3

我们可以看到，随着字母的增加，对应的数据包，也在增加，因此，我们只需要选择最终单词的数据包，也就是图3

打开它的数据包，我们发现他是POST请求，并且在response中所携带的数据是一组json数据

了解以上以后，我们开始进行编码实战

#导包：
import requests
import json
post_url = "https://fanyi.baidu.com/sug"
#封装一个data参数,对参数进行处理，因为请求需要参数才能获取响应的数据
data={
    "kw":"dog"
}
#请求之前进行伪装
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.6241 SLBChan/15"
    }
response = requests.post(url=post_url,data=data,headers=headers)
#获取响应数据
#使用json()方法直接返回一个对象(如果确认服务器的响应数据是json类型的，才可以使用json()方法)
dic_obj = response.json()
#进行持久化存储
fp = open("./dog.json","w",encoding='utf-8')
json.dump(dic_obj,fp=fp,ensure_ascii=False)#将dic_obj对象传入fp文件中,因为传入的是文本字符，不能使用ASCII编码，所以将其设为False

print("over")

结果：

当然，这只是一个单词的获取，但我们需要的是无论输入什么单词，它都可以获取到对应的数据

因此，我们还需要对代码进行一些小小的修改

#导包：
import requests
import json
post_url = "https://fanyi.baidu.com/sug"
#封装一个data参数,对参数进行处理，因为请求需要参数才能获取响应的数据
word = input("请输入你想要翻译的单词：")
data={
    "kw":word
}
#请求之前进行伪装
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.6241 SLBChan/15"
    }
response = requests.post(url=post_url,data=data,headers=headers)
#获取响应数据
#使用json()方法直接返回一个对象(如果确认服务器的响应数据是json类型的，才可以使用json()方法)
dic_obj = response.json()
#进行持久化存储
FileName = word+".json"
fp = open(FileName,"w",encoding='utf-8')
json.dump(dic_obj,fp=fp,ensure_ascii=False)#将dic_obj对象传入fp文件中,因为传入的是文本字符，不能使用ASCII编码，所以将其设为False

print("over")

结果：

一线摸鱼人员

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫剑谱第六页（爬取百度翻译）

首先打开百度翻译，进行翻译可以看到每次搜索的单词不同，搜索结果也就不同，其中页面中显示结果的部分，也会随着结果的变化而变化，这种页面局部变化的技术称为AJax。（一会需要用到）打开开发者选项（F12或点击鼠标左键选择检查），进入Network选择我们要捕获的数据包因为是数据是通过Ajax技术显示的，所以我们需要选择Ajax对应的数据请求包，也就是XHR进入以后，我们随便搜索一个单词，例如：dog图1图2图3我们可以看到，随着字母的增加，对应的数据包，也在增加，因...
复制链接

扫一扫