爬虫笔记4：urllib_post案例之简单的翻译小软件

最新推荐文章于 2022-03-30 10:44:44 发布

进阶的阿牛哥

最新推荐文章于 2022-03-30 10:44:44 发布

阅读量68

点赞数

本文链接：https://blog.csdn.net/weixin_49167820/article/details/116131628

版权

需求：简单的翻译小软件
实际上就是怎么用爬虫向有道翻译输入数据，并获取结果。

知识点：
urllib模块也是用于2种请求方式的，在笔记2中都是用的GET方式。

（1）GET 特点：查询参数在URL地址中显示
（2） POST ：
• 在Request方法中添加data参数 urllib.request.Request(url,data=data,headers=headers)
• data ：表单数据以bytes类型提交,不能是str，也就是说要用到data = bytes(data,‘utf-8’)将data转换成字节类型。

1、为什么目标url是 ‘https://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule’
因为我们输入你好并回车后，网址没有变化。所以我们确定是用post请求。
2、怎样找到真实的目标url。
在这里插入图片描述
依次点击发现Response中有你好以及对应的答案hello,由此我们的思路是，对该Response对应的url发起请求获得响应，就能得到答案hello。而真实的url就在旁边的headers中，如下图：

3、urllib.request.Request(url,data=data,headers=headers) 的参数data去哪里找？
如下图
在这里插入图片描述

import urllib.request
import urllib.parse


# 请输入您要翻译的内容
content ='你好'       #最后用input('请输入您要翻译的内容:')替代'你好'
url = 'https://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.128 Safari/537.36'
}
# 携带数据
data = {
    'i': content,
    'from': 'AUTO',
    'smartresult': 'dict',
    'client': 'fanyideskweb',
    'salt': '15880623642174',
    'sign': 'c6c2e897040e6cbde00cd04589e71d4e',
    'ts': '1588062364217',
    'bv': '42160534cfa82a6884077598362bbc9d',
    'doctype': 'json',
    'version': '2.1',
    'keyfrom': 'fanyi.web',
    'action': 'FY_BY_CLICKBUTTION'
}

data = urllib.parse.urlencode(data) #content有可能是中文
#print(type(data))
data = bytes(data,'utf-8')
req = urllib.request.Request(url,data=data,headers=headers)
res = urllib.request.urlopen(req)
html = res.read().decode('utf-8')
print(html)
print(type(html))

结果：
在这里插入图片描述
以为红框处是一个字典，但结果却是字符串。实际上，它是一个 json类型的str。（控制台没有把{}外面两边的引号显示出来）
我们用json.loads()将json类型的str 转换为 python类型的字典

import urllib.request
import urllib.parse
import json

# 请输入您要翻译的内容
content ='你好'       #最后用input('请输入您要翻译的内容:')替代'你好'
url = 'https://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.128 Safari/537.36'
}
# 携带数据
data = {
    'i': content,
    'from': 'AUTO',
    'smartresult': 'dict',
    'client': 'fanyideskweb',
    'salt': '15880623642174',
    'sign': 'c6c2e897040e6cbde00cd04589e71d4e',
    'ts': '1588062364217',
    'bv': '42160534cfa82a6884077598362bbc9d',
    'doctype': 'json',
    'version': '2.1',
    'keyfrom': 'fanyi.web',
    'action': 'FY_BY_CLICKBUTTION'
}

data = urllib.parse.urlencode(data) #content有可能是中文
#print(type(data))
data = bytes(data,'utf-8')
req = urllib.request.Request(url,data=data,headers=headers)
res = urllib.request.urlopen(req)
html = res.read().decode('utf-8')
#print(html)
#print(type(html))

# json类型的str --> python类型的字典
r_dict = json.loads(html)
#print(type(r_dict),r_dict)
r = r_dict['translateResult'] 
result = r[0][0]['tgt']
print(result)

结果：
在这里插入图片描述

进阶的阿牛哥

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫笔记4：urllib_post案例之简单的翻译小软件

需求：简单的翻译小软件实际上就是怎么用爬虫向有道翻译输入数据，并获取结果。知识点：urllib模块也是用于2种请求方式的，在笔记2中都是用的GET方式。（1）GET 特点：查询参数在URL地址中显示（2） POST ：• 在Request方法中添加data参数 urllib.request.Request(url,data=data,headers=headers)• data ：表单数据以bytes类型提交,不能是str，也就是说要用到data = bytes(data,‘utf-8’)将
复制链接

扫一扫