项目实训——语音转文字功能

本文介绍了如何在前端页面实现语音转文字功能,利用百度云的API进行音频到文字的转换。用户点击上传按钮选择音频文件,前端与后端通过接口对接,将音频发送到百度云进行识别。在controller层进行对接,支持的音频格式包括pcm、wav、amr、m4a,采样率要求为16000或8000,16 bit位深,单声道。
摘要由CSDN通过智能技术生成

前端页面实现

主要组件

这部分页面与网页转文字类似,这里只描述选取文件的功能,这里用了点击上传的组件。

<el-button slot="trigger" type="primary" style="width: 250px">
选取文件</el-button>

通过 slot 可以传入自定义的上传按钮类型和文字提示。可通过设置limit和on-exceed来限制上传文件的个数和定义超出限制时的行为。可通过设置before-remove来阻止文件移除操作。
其余页面和网页转文字相同,不再赘述。
在这里插入图片描述
点击上传文件按钮后,弹出文件选择窗口如下:
在这里插入图片描述

语音转文字功能

语音转文字我调用的是百度云的api,官网链接如下:
https://ai.baidu.com/ai-doc/SPEECH/ok4o0bk7z

简介
百度短语音识别可以将 60 秒以下的音频识别为文字。适用于语音对话、语音控制、语音输入等场景。

接口类型:通过 REST API 的方式提供的通用的 HTTP 接口。适用于任意操作系统,任意编程语言
接口限制:需要上传完整的录音文件,录音文件时长不超过 60 秒。浏览器由于无法跨域请求百度语音服务器的域名,因此无法直接调用API接口。
支持音频格式:pcm、wav、amr、m4a
音频编码要求:采样率 16000、8000(仅支持普通话模型),16 bit 位深,单声道(音频格式查看及转换)

引入依赖:

<dependency>
<groupId>com.baidu.aip</groupId>
<artifactId>java-sdk</artifactId>
<vers
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值