项目实训——语音转文字功能

最新推荐文章于 2024-08-14 18:01:37 发布

芒果@

最新推荐文章于 2024-08-14 18:01:37 发布

阅读量1k

点赞数 1

分类专栏：项目实训文章标签：语音识别 java 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46346504/article/details/125240521

版权

本文介绍了如何在前端页面实现语音转文字功能，利用百度云的API进行音频到文字的转换。用户点击上传按钮选择音频文件，前端与后端通过接口对接，将音频发送到百度云进行识别。在controller层进行对接，支持的音频格式包括pcm、wav、amr、m4a，采样率要求为16000或8000，16 bit位深，单声道。

摘要由CSDN通过智能技术生成

前端页面实现

主要组件

这部分页面与网页转文字类似，这里只描述选取文件的功能，这里用了点击上传的组件。

<el-button slot="trigger" type="primary" style="width: 250px">
选取文件</el-button>

通过 slot 可以传入自定义的上传按钮类型和文字提示。可通过设置limit和on-exceed来限制上传文件的个数和定义超出限制时的行为。可通过设置before-remove来阻止文件移除操作。
其余页面和网页转文字相同，不再赘述。
在这里插入图片描述
点击上传文件按钮后，弹出文件选择窗口如下：

语音转文字功能

语音转文字我调用的是百度云的api,官网链接如下：
https://ai.baidu.com/ai-doc/SPEECH/ok4o0bk7z

简介
百度短语音识别可以将 60 秒以下的音频识别为文字。适用于语音对话、语音控制、语音输入等场景。

接口类型：通过 REST API 的方式提供的通用的 HTTP 接口。适用于任意操作系统，任意编程语言
接口限制：需要上传完整的录音文件，录音文件时长不超过 60 秒。浏览器由于无法跨域请求百度语音服务器的域名，因此无法直接调用API接口。
支持音频格式：pcm、wav、amr、m4a
音频编码要求：采样率 16000、8000（仅支持普通话模型），16 bit 位深，单声道（音频格式查看及转换）

引入依赖：

<dependency>
<groupId>com.baidu.aip</groupId>
<artifactId>java-sdk</artifactId>
<vers

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。