前端页面实现
主要组件
这部分页面与网页转文字类似,这里只描述选取文件的功能,这里用了点击上传的组件。
<el-button slot="trigger" type="primary" style="width: 250px">
选取文件</el-button>
通过 slot 可以传入自定义的上传按钮类型和文字提示。可通过设置limit和on-exceed来限制上传文件的个数和定义超出限制时的行为。可通过设置before-remove来阻止文件移除操作。
其余页面和网页转文字相同,不再赘述。
点击上传文件按钮后,弹出文件选择窗口如下:
语音转文字功能
语音转文字我调用的是百度云的api,官网链接如下:
https://ai.baidu.com/ai-doc/SPEECH/ok4o0bk7z
简介
百度短语音识别可以将 60 秒以下的音频识别为文字。适用于语音对话、语音控制、语音输入等场景。
接口类型:通过 REST API 的方式提供的通用的 HTTP 接口。适用于任意操作系统,任意编程语言
接口限制:需要上传完整的录音文件,录音文件时长不超过 60 秒。浏览器由于无法跨域请求百度语音服务器的域名,因此无法直接调用API接口。
支持音频格式:pcm、wav、amr、m4a
音频编码要求:采样率 16000、8000(仅支持普通话模型),16 bit 位深,单声道(音频格式查看及转换)
引入依赖:
<dependency>
<groupId>com.baidu.aip</groupId>
<artifactId>java-sdk</artifactId>
<vers