现在我想分享一个利用Python技术,爬取一个翻译网站的翻译功能的小代码。
首先隆重介绍我们今天将要爬取的网站:http://fy.iciba.com/
咱们用Python中的urllib模块的功能进行爬取
众所周知,在爬虫的准备工作中我呢吧需要确定咱们爬取网站的url
那么,这个翻译网站的url如何确定呢?
我们进入网站,并单击F12打开开发者工具(这里我们用的谷歌浏览器)
这个网站的翻译功能分为两个部分:英译汉 汉译英
然后我决定先翻译两个单词玩玩!翻译的同事不关闭开发者工具,观察其变化。
事实证明这个网站的翻译能力还有待加强,毕竟每一个NBA球迷都知道laker是湖人的意思嘛!
在翻译的过程中我们发现他有一个地方在每一次翻译的时候都会增加一个:ajax.php?a=fy
打开这两个都可以在下面的Form Data中找到我们想要检索的单词
这个时候
我们发现这里的Reque