基于fasttext与langid文本语种识别的python代码实现

人工智能研究所

已于 2023-01-20 16:21:35 修改

阅读量377

点赞数 1

分类专栏：人工智能之NLP自然语言处理文章标签： python 语音识别开发语言

于 2023-01-20 15:52:40 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44782294/article/details/128742131

版权

人工智能之NLP自然语言处理专栏收录该内容

36 篇文章 2 订阅 ¥79.90 ¥99.00

订阅专栏

超级会员免费看

上期文章，我们分享了OpenAI开源的能识别99种语言的语音识别系统——whisper。

Whisper 是一种自动语音识别模型，基于从网络上收集的 680,000 小时多语言数据进行训练。根据 OpenAI的介绍，该模型对口音、背景噪音和技术语言具有很好的鲁棒性。此外，它还支持 99 种不同语言的转录和从这些语言到英语的翻译。

whisper语音识别系统

虽然Open AI开源的whisper语音识别系统，可以识别出不同的语音，且同样可以识别出语音的语种，但是whisper主要应用在语音识别系统上面，且我们运行whisper系统需要大型的模型。当我们仅仅来识别不同的语言文字，且要识别出语言文字的语种时，我们可以使用小型的模型来识别，比如langid，fasttext等等。

langid文本语种识别

在Facebook发布fasttext之前，比较著名的语种识别库是langid，langid是一个小型的语种识别库，其模型只有2.5MB的大小，精度已经达到了91.3以上，虽然模型较小，但是功能确实是比较强大，且可以支持97种的文本语种检测。

使用langid十分简单，我们只需要使用如下代码安装使用即可

pip install langid
langid

第一步首先是使用pip安装langid即可

了解本专栏

超级会员免费看

人工智能研究所

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
基于fasttext与langid文本语种识别的python代码实现

fasttext是一个进行文本分类，识别以及单词编码的文本操作库，我们可以使用fasttext进行单词的编码也是我们前期介绍transformer模型的embedding操作，我们可以通过fasttext来进行单词的word embedding操作。在Facebook发布fasttext之前，比较著名的语种识别库是langid，langid是一个小型的语种识别库，其模型只有2.5MB的大小，精度已经达到了91.3以上，虽然模型较小，但是功能确实是比较强大，且可以支持97种的文本语种检测。
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

人工智能研究所 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。