百度翻译例句结构化解析

百度翻译例句结构化解析

   本文记录百度翻译里面的例句解析,百度翻译的爬取是解析的前面部分。这部分时间关系比较复杂本文不讲。可以参考其他百度翻译爬虫。

  1. 百度翻译的返回内容接口这是一个post接口,参数属于爬虫部分,这里不讲。返回结果如图:在这里插入图片描述
  2. 本文主要为了解析里面的oxford(牛津词典)里面例句部分,解析这部分的原因是因为其他的部分例句都很简单,只有这部分比较繁杂。但是有特点,特点就是每个例句都在一个json结构里面。他们的key都是enText且json都有一个tag:x的键值对。
  3. 解决方法
    递归调用判断是否含有tag:x 将含有标识的json返回。
    @staticmethod
    def find_data(data):
        """
            提取牛津词典中的例句json
        :param json_data:
        :return:
        """
        global oxford_sentence_dict
        if isinstance(data, dict):
            if data.get("tag") == "x":
                oxford_sentence_dict.append(data)
            else:
                for _, item in data.items():
                    TranslateBaiduSpider.find_data(item)
        elif isinstance(data, list):
            for item in data:
                TranslateBaiduSpider.find_data(item)
        else:
            pass

4.完毕

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值