爬虫实现中英文的词语和句子互译

这篇博客详细介绍了如何利用Python爬虫抓取百度翻译的接口,实现中英文单词和句子的相互翻译。通过分析请求过程,获取并构造必要的POST数据,包括动态变化的sign值,最终成功实现翻译功能。在遇到输入为中文句子的情况时,通过异常处理解决了翻译问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 python爬取百度翻译结果,需要发送俩次请求。

一次是请求获取输入的语言类型,然后是拿着获取到的语言类型发送下一次请求,获取翻译的结果。

先输入英文“hello”,获取结果

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAd2VpeGluXzQ2NzM5NTQ5,size_20,color_FFFFFF,t_70,g_se,x_16

可以发现,输入后返回的翻译结果在这个文件中,接着输入中文“爬虫”进行翻译

发现页面没有重新加载,所以这是由动态页面加载,网址只有from和to后面发生变化,可以猜测后面的元素就是原先语言的类型和想要翻译的类型,而且这是个post请求方式,所以查看一下post的数据部分

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAd2VpeGluXzQ2NzM5NTQ5,size_14,color_FFFFFF,t_70,g_se,x_16

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAd2VpeGluXzQ2NzM5NTQ5,size_13,color_FFFFFF,t_70,g_se,x_16

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAd2VpeGluXzQ2NzM5NTQ5,size_18,color_FFFFFF,t_70,g_se,x_16

 post的data部分俩个参数from和to,query就是自己输入的词语,查看上一个请求的内容:

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAd2VpeGluXzQ2NzM5NTQ5,size_19,color_FFFFFF,t_70,g_se,x_16

 也是返回json数据,其中就有一个参数lan,对应值为zh,可以猜测这个请求是返回此次输入词语的语言类型的。

首先请求获取语言类型:

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAd2VpeGluXzQ2NzM5NTQ5,size_20,color_FFFFFF,t_70,g_se,x_16

post的data部分就是输入的词语:

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAd2VpeGluXzQ2NzM5NTQ5,size_19,color_FFFFFF,t_70,g_se,x_16

 当我们输入中文时会返回zh,所以对应的from值就为zh,to值就为en

    def get_lang(self, lang_data):  # 获取语言类型        
        return lang_data["lan"], "en" if lang_data["lan"] == "zh" else "zh"

比较难的部分是翻译部分,请求获取到翻译后的结果:

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAd2VpeGluXzQ2NzM5NTQ5,size_20,color_FFFFFF,t_70,g_se,x_16

试了几次后发现,这次请求的post数据部分的sign值和token值是必须要加的,且每次输入要翻译的词语后,sign值都会不一样,这时候找一下sign值是哪来的。浏览器控制台打开搜索:

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAd2VpeGluXzQ2NzM5NTQ5,size_20,color_FFFFFF,t_70,g_se,x_16

很多都只是包含sign的词语而已,而不是sign,换成输入sign:

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAd2VpeGluXzQ2NzM5NTQ5,size_20,color_FFFFFF,t_70,g_se,x_16

 第3个有from,to,query,和sign值,和获取翻译结果的请求结果key值一样,所以试着在这里打上断点调试,重新刷新页面,而不是点击翻译:</

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值