爬虫实现中英文的词语和句子互译

 python爬取百度翻译结果,需要发送俩次请求。

一次是请求获取输入的语言类型,然后是拿着获取到的语言类型发送下一次请求,获取翻译的结果。

先输入英文“hello”,获取结果

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAd2VpeGluXzQ2NzM5NTQ5,size_20,color_FFFFFF,t_70,g_se,x_16

可以发现,输入后返回的翻译结果在这个文件中,接着输入中文“爬虫”进行翻译

发现页面没有重新加载,所以这是由动态页面加载,网址只有from和to后面发生变化,可以猜测后面的元素就是原先语言的类型和想要翻译的类型,而且这是个post请求方式,所以查看一下post的数据部分

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAd2VpeGluXzQ2NzM5NTQ5,size_14,color_FFFFFF,t_70,g_se,x_16

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAd2VpeGluXzQ2NzM5NTQ5,size_13,color_FFFFFF,t_70,g_se,x_16

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAd2VpeGluXzQ2NzM5NTQ5,size_18,color_FFFFFF,t_70,g_se,x_16

 post的data部分俩个参数from和to,query就是自己输入的词语,查看上一个请求的内容:

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAd2VpeGluXzQ2NzM5NTQ5,size_19,color_FFFFFF,t_70,g_se,x_16

 也是返回json数据,其中就有一个参数lan,对应值为zh,可以猜测这个请求是返回此次输入词语的语言类型的。

首先请求获取语言类型:

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAd2VpeGluXzQ2NzM5NTQ5,size_20,color_FFFFFF,t_70,g_se,x_16

post的data部分就是输入的词语:

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAd2VpeGluXzQ2NzM5NTQ5,size_19,color_FFFFFF,t_70,g_se,x_16

 当我们输入中文时会返回zh,所以对应的from值就为zh,to值就为en

    def get_lang(self, lang_data):  # 获取语言类型        
        return lang_data["lan"], "en" if lang_data["lan"] == "zh" else "zh"

比较难的部分是翻译部分,请求获取到翻译后的结果:

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAd2VpeGluXzQ2NzM5NTQ5,size_20,color_FFFFFF,t_70,g_se,x_16

试了几次后发现,这次请求的post数据部分的sign值和token值是必须要加的,且每次输入要翻译的词语后,sign值都会不一样,这时候找一下sign值是哪来的。浏览器控制台打开搜索:

  • 4
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值