数据上新 | 景联文科技推出高质量方言音文对数据集，驱动方言语音大模型技术革新

景联文科技

于 2024-07-29 09:16:54 发布

阅读量237

点赞数 4

文章标签：科技

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_55551028/article/details/140762284

版权

中国电信人工智能研究院（TeleAI）正式对外发布星辰超多方言语音识别大模型。这是业内首个支持30种方言自由混说的语音识别大模型，也是目前国内支持最多方言的语音识别大模型。

方言语音大模型具有广泛的应用场景，可以应用于语音助手、智能家居、智慧客服等领域，还可以让说方言的群体能便捷地与外界沟通。

数据作为训练大模型的养料，其质量在很大程度上决定了大模型本身的性能。高质量方言语音数据一直处于匮乏状态，已成为方言语音大模型的难题之一。

景联文科技是一家专业的大模型数据服务商，推出方言音文对数据集，为方言语音大模型赋能。

方言音文对数据集

数据集规模：1万小时音频数据，涵盖23种方言。

数据内容：每个语音都有相应的文本精准转录，每个方言类别都包含数千小时的音频录音，涵盖了日常对话、新闻播报、故事讲述等多个场景。语音清晰无误，没有过多的背景噪音干扰。

年龄分布：说话者的年龄分布应该广泛，包括儿童、青少年、成年人和老年人。

性别比例：男性和女性说话者的比例应均衡。

方言覆盖范围：涵盖四川话、粤语、绍兴话等23种方言。

应用场景：

语音识别：训练和评估语音识别模型，特别是在方言识别上的性能。
自然语言处理：用于开发针对特定方言的自然语言理解和生成系统。
语言学研究：为语言学家提供丰富的研究材料，帮助他们更好地了解方言的特点和发展趋势。
文化保护：通过记录方言，有助于保存和传承地区文化和语言多样性。

技术特点：

高质量录音：所有录音均采用专业设备，在控制良好的环境中录制，确保音频质量。
标准化转录：文本转录遵循一定的规则和标准，便于模型训练和评估。
广泛代表性：覆盖的方言种类广泛，能够代表中国的方言多样性。
多场景覆盖：包含多种不同的对话场景，使数据集更加丰富和实用。

在数据安全与合规方面，景联文科技已通过ISO9001质量、ISO27001信息安全、ISO27701国际隐私安全管理认证，积极参与8项国家数据交换格式和数据安全标准制定，牢固构筑数据保护的基石。

获取样例请登录景联文科技官网咨询客服。https://www.jinglianwen.com/ai/

或直接发送需求至邮箱：lx@jinglianwen.com

景联文科技｜数据采集｜数据标注｜多模态数据集

助力人工智能技术，赋能传统产业智能化转型升级

文章图文著作权归景联文科技所有，商业转载请联系景联文科技获得授权，非商业转载请注明出处。

景联文科技

关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
数据上新 | 景联文科技推出高质量方言音文对数据集，驱动方言语音大模型技术革新

这是业内首个支持30种方言自由混说的语音识别大模型，也是目前国内支持最多方言的语音识别大模型。数据内容：每个语音都有相应的文本精准转录，每个方言类别都包含数千小时的音频录音，涵盖了日常对话、新闻播报、故事讲述等多个场景。高质量方言语音数据一直处于匮乏状态，已成为方言语音大模型的难题之一。方言语音大模型具有广泛的应用场景，可以应用于语音助手、智能家居、智慧客服等领域，还可以让说方言的群体能便捷地与外界沟通。景联文科技是一家专业的大模型数据服务商，推出方言音文对数据集，为方言语音大模型赋能。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。