Python脚本 抓取/翻译动漫角色名字的罗马音或外文名(用于搜索图片)

本文介绍了作者如何使用Python脚本从百度百科和萌娘百科抓取动漫角色的罗马音或外文名,以解决在不支持中文和日文输入的网站上搜索动漫角色的问题。通过避免依赖机器翻译API,作者直接爬取相关百科网站的数据,实现了更准确的搜索。文章包含了测试结果和Python代码示例。
摘要由CSDN通过智能技术生成

https://danbooru.donmai.us 搜索色图的时候,因为老美的网站的缘故,不支持中文和日文输入,只能输入平假名对应罗马音来寻找人物.像我虽然日语N1了,但是遇到人名有时依然会念错.所以需要一个可以直接翻译角色名的API.不过找了一圈,什么有道翻译,谷歌翻译(googleTranslate for py),都是坑=,=
例如:宝多六花->Treasure six flowers
我佛了,什么精致翻译
所以不考虑机翻考虑人翻,立刻想到可以用百度百科或者萌娘百科的翻译,于是不用翻译直接用爬虫爬下来不就好了吗?
所以立刻写完测试,拿来使用(好像没啥问题)
图一:输入框中输入角色的罗马音
在这里插入图片描述
图二:百科翻译

在这里插入图片描述

测试结果

1.动漫角色
在这里插入图片描述

其他

另外,还能搜现实人物的外文名。因为百度百科的网页样式比较统一,所以不用修改爬虫就能得到,但是萌百的页面普遍有三种1.角色 2.重名->重定向 3.现实人物,而这里只做了对角色的搜索页面,所以现实人物会GG。另外没有对没有平假名的页面也会GG
在这里插入图片描述
在这里插入图片描述
我觉得可以走NLP方向研究下平假名翻译这个问题

Python代码

import requests
from lxml <
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值