爬虫实现中英文的词语和句子互译_爬虫爬取技术问答,并翻译成中文-CSDN博客

本文链接：https://blog.csdn.net/weixin_46739549/article/details/123487415

这篇博客详细介绍了如何利用Python爬虫抓取百度翻译的接口，实现中英文单词和句子的相互翻译。通过分析请求过程，获取并构造必要的POST数据，包括动态变化的sign值，最终成功实现翻译功能。在遇到输入为中文句子的情况时，通过异常处理解决了翻译问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

python爬取百度翻译结果，需要发送俩次请求。

一次是请求获取输入的语言类型，然后是拿着获取到的语言类型发送下一次请求，获取翻译的结果。

先输入英文“hello”，获取结果

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAd2VpeGluXzQ2NzM5NTQ5,size_20,color_FFFFFF,t_70,g_se,x_16

可以发现，输入后返回的翻译结果在这个文件中，接着输入中文“爬虫”进行翻译

发现页面没有重新加载，所以这是由动态页面加载，网址只有from和to后面发生变化，可以猜测后面的元素就是原先语言的类型和想要翻译的类型，而且这是个post请求方式，所以查看一下post的数据部分

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAd2VpeGluXzQ2NzM5NTQ5,size_14,color_FFFFFF,t_70,g_se,x_16

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAd2VpeGluXzQ2NzM5NTQ5,size_13,color_FFFFFF,t_70,g_se,x_16

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAd2VpeGluXzQ2NzM5NTQ5,size_18,color_FFFFFF,t_70,g_se,x_16

post的data部分俩个参数from和to，query就是自己输入的词语，查看上一个请求的内容：

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAd2VpeGluXzQ2NzM5NTQ5,size_19,color_FFFFFF,t_70,g_se,x_16

也是返回json数据，其中就有一个参数lan，对应值为zh，可以猜测这个请求是返回此次输入词语的语言类型的。

首先请求获取语言类型：

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAd2VpeGluXzQ2NzM5NTQ5,size_20,color_FFFFFF,t_70,g_se,x_16

post的data部分就是输入的词语：

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAd2VpeGluXzQ2NzM5NTQ5,size_19,color_FFFFFF,t_70,g_se,x_16

当我们输入中文时会返回zh，所以对应的from值就为zh，to值就为en

    def get_lang(self, lang_data):  # 获取语言类型        
        return lang_data["lan"], "en" if lang_data["lan"] == "zh" else "zh"

比较难的部分是翻译部分，请求获取到翻译后的结果：

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAd2VpeGluXzQ2NzM5NTQ5,size_20,color_FFFFFF,t_70,g_se,x_16

试了几次后发现，这次请求的post数据部分的sign值和token值是必须要加的，且每次输入要翻译的词语后，sign值都会不一样，这时候找一下sign值是哪来的。浏览器控制台打开搜索:

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAd2VpeGluXzQ2NzM5NTQ5,size_20,color_FFFFFF,t_70,g_se,x_16

很多都只是包含sign的词语而已，而不是sign,换成输入sign:

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAd2VpeGluXzQ2NzM5NTQ5,size_20,color_FFFFFF,t_70,g_se,x_16

第3个有from，to，query，和sign值，和获取翻译结果的请求结果key值一样，所以试着在这里打上断点调试，重新刷新页面，而不是点击翻译：</