有道翻译——爬取

输入英文从有道翻译网址爬取js数据

#coding=utf-8
import urllib
import urllib2

fanyi_url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'

head = {
    'Accept': 'application/json, text/javascript, */*; q=0.01',
    'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
    'X-Requested-With': 'XMLHttpRequest',
}

key = raw_input('请输入需要翻译的文字')

formData = {
    'i': key,
    'from': 'AUTO',
    'to': 'AUTO',
    'smartresult': 'dict',
    'client': 'fanyideskweb',
    'sign': 'e2fd5830da31a783b6c1f83b522a7d7c',
    'doctype': 'json',
    'keyfrom': 'fanyi.web',
    'action': 'FY_BY_CLICKBUTTION',
    'typoResult': 'true',

}

data = urllib.urlencode(formData)

request = urllib2.Request(fanyi_url, data=data, headers=head)

resp = urllib2.urlopen(request)

print resp.read()


-----------------------------The results-------------------------------
请输入需要翻译的文字hello world
                          {"type":"EN2ZH_CN","errorCode":0,"elapsedTime":1,"translateResult":[[{"src":"hello world","tgt":"你好,世界"}]]}


---------------------------------------------------------------------------

通过json.cn翻译js数据

{
    "type":"EN2ZH_CN",
    "errorCode":0,
    "elapsedTime":2,
    "translateResult":[
        [
            {
                "src":"hello world",
                "tgt":"你好,世界"
            }
        ]
    ]
}
Scrapy是一个强大的Python开源网络虫框架,可以用来快速、高效地爬取网页信息。下面我将以使用Scrapy框架爬取有道翻译为例,简要介绍如何进行爬取。 首先,我们需要创建一个Scrapy项目。打开命令行工具,输入以下命令: scrapy startproject youdao_translate 这将在当前目录下创建一个名为"youdao_translate"的Scrapy项目。接下来,进入项目目录并创建一个名为"translator"的虫,命令如下: cd youdao_translate scrapy genspider translator www.youdao.com 这将在项目目录下的spiders文件夹中生成一个名为"translator.py"的文件,我们可以在文件中编写虫代码。 打开"translator.py"文件,我们需要设置虫的起始URL和解析方法。首先,在文件的开头添加以下代码: start_urls = ['http://www.youdao.com/'] 然后,找到"def parse(self, response):"这一行,在该方法中编写解析页面的代码,如下所示: def parse(self, response): result = response.xpath('//div[@id="inputTranslation"]/ul/li/text()').extract_first() yield { 'translation': result, } 在这个示例中,我们使用XPath语法来提取翻译结果所在的标签,并将结果存储在一个字典中。通过使用yield关键字,我们将字典作为爬取结果返回。 接下来,保存文件并返回命令行工具。在命令行中输入以下命令即可启动虫: scrapy crawl translator Scrapy将会开始爬取并显示爬取过程的日志信息。当爬取完成后,结果将保存在默认的JSON文件中,您可以在项目目录下找到该文件。 以上就是使用Scrapy框架爬取有道翻译的简要流程。当然,具体的爬取过程可能因网站的结构和数据布局而有所不同,您可以根据实际情况进行调整和改进。希望对您有所帮助!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值