python爬取百度翻译结果,需要发送俩次请求。
一次是请求获取输入的语言类型,然后是拿着获取到的语言类型发送下一次请求,获取翻译的结果。
先输入英文“hello”,获取结果
可以发现,输入后返回的翻译结果在这个文件中,接着输入中文“爬虫”进行翻译
发现页面没有重新加载,所以这是由动态页面加载,网址只有from和to后面发生变化,可以猜测后面的元素就是原先语言的类型和想要翻译的类型,而且这是个post请求方式,所以查看一下post的数据部分
post的data部分俩个参数from和to,query就是自己输入的词语,查看上一个请求的内容:
也是返回json数据,其中就有一个参数lan,对应值为zh,可以猜测这个请求是返回此次输入词语的语言类型的。
首先请求获取语言类型:
post的data部分就是输入的词语:
当我们输入中文时会返回zh,所以对应的from值就为zh,to值就为en
def get_lang(self, lang_data): # 获取语言类型
return lang_data["lan"], "en" if lang_data["lan"] == "zh" else "zh"
比较难的部分是翻译部分,请求获取到翻译后的结果:
试了几次后发现,这次请求的post数据部分的sign值和token值是必须要加的,且每次输入要翻译的词语后,sign值都会不一样,这时候找一下sign值是哪来的。浏览器控制台打开搜索:
很多都只是包含sign的词语而已,而不是sign,换成输入sign:
第3个有from,to,query,和sign值,和获取翻译结果的请求结果key值一样,所以试着在这里打上断点调试,重新刷新页面,而不是点击翻译:</