需求:简单的翻译小软件
实际上就是怎么用爬虫向有道翻译输入数据,并获取结果。
知识点:
urllib模块也是用于2种请求方式的,在笔记2中都是用的GET方式。
(1)GET 特点 :查询参数在URL地址中显示
(2) POST :
• 在Request方法中添加data参数 urllib.request.Request(url,data=data,headers=headers)
• data :表单数据以bytes类型提交,不能是str,也就是说要用到data = bytes(data,‘utf-8’)将data转换成字节类型。
1、为什么目标url是 ‘https://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule’
因为我们输入你好并回车后,网址没有变化。所以我们确定是用post请求。
2、怎样找到真实的目标url。
依次点击发现Response中有你好以及对应的答案hello,由此我们的思路是,对该Response对应的url发起请求获得响应,就能得到答案hello。而真实的url就在旁边的headers中,如下图:
3、urllib.request.Request(url,data=data,headers=headers) 的参数data去哪里找?
如下图
import urllib.request
import urllib.parse
# 请输入您要翻译的内容
content ='你好' #最后用input('请输入您要翻译的内容:')替代'你好'
url = 'https://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.128 Safari/537.36'
}
# 携带数据
data = {
'i': content,
'from': 'AUTO',
'smartresult': 'dict',
'client': 'fanyideskweb',
'salt': '15880623642174',
'sign': 'c6c2e897040e6cbde00cd04589e71d4e',
'ts': '1588062364217',
'bv': '42160534cfa82a6884077598362bbc9d',
'doctype': 'json',
'version': '2.1',
'keyfrom': 'fanyi.web',
'action': 'FY_BY_CLICKBUTTION'
}
data = urllib.parse.urlencode(data) #content有可能是中文
#print(type(data))
data = bytes(data,'utf-8')
req = urllib.request.Request(url,data=data,headers=headers)
res = urllib.request.urlopen(req)
html = res.read().decode('utf-8')
print(html)
print(type(html))
结果:
以为红框处是一个字典,但结果却是字符串。实际上,它是一个 json类型的str。(控制台没有把{}外面两边的引号显示出来)
我们用json.loads()将json类型的str 转换为 python类型的字典
import urllib.request
import urllib.parse
import json
# 请输入您要翻译的内容
content ='你好' #最后用input('请输入您要翻译的内容:')替代'你好'
url = 'https://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.128 Safari/537.36'
}
# 携带数据
data = {
'i': content,
'from': 'AUTO',
'smartresult': 'dict',
'client': 'fanyideskweb',
'salt': '15880623642174',
'sign': 'c6c2e897040e6cbde00cd04589e71d4e',
'ts': '1588062364217',
'bv': '42160534cfa82a6884077598362bbc9d',
'doctype': 'json',
'version': '2.1',
'keyfrom': 'fanyi.web',
'action': 'FY_BY_CLICKBUTTION'
}
data = urllib.parse.urlencode(data) #content有可能是中文
#print(type(data))
data = bytes(data,'utf-8')
req = urllib.request.Request(url,data=data,headers=headers)
res = urllib.request.urlopen(req)
html = res.read().decode('utf-8')
#print(html)
#print(type(html))
# json类型的str --> python类型的字典
r_dict = json.loads(html)
#print(type(r_dict),r_dict)
r = r_dict['translateResult']
result = r[0][0]['tgt']
print(result)
结果: