AI超强语音转文本SenseVoice,本地化部署教程!

模型介绍

SenseVoice专注于高精度多语言语音识别、情感辨识和音频事件检测

  • 多语言识别: 采用超过40万小时数据训练,支持超过50种语言,识别效果上优于Whisper模型。
  • 富文本识别:
    • 具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。
    • 支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。
  • 高效推理: SenseVoice-Small模型采用非自回归端到端框架,推理延迟极低,10s音频推理仅耗时70ms,15倍优于Whisper-Large。
  • 微调定制: 具备便捷的微调脚本与策略,方便用户根据业务场景修复长尾样本问题。

SenseVoice在线预览链接

  1. SenseVoice 在线预览:https://www.modelscope.cn/studios/iic/SenseVoice

本地化部署

这里使用autodl 机器学习平台,官网地址:https://www.autodl.com/market/list

直接到算力市场,选择按量计费,地区随便选择一个,这里使用4090显卡。

如图选择PyTorch 版本,最后点击创建。

创建好以后就来到了控制台,点击AutoPanel 面板,设置默认为清华源。

点击选择清华源,因为清华源下载依赖包比较快。

接着回到控制台,点击进入JupyterLab

进入到autodl-tmp 目录下,然后打开终端。

然后克隆项目,输入如下命令:

git clone https://github.com/FunAudioLLM/SenseVoice.git

如果提示网络超时等,输入如下命令,完了重新拉取代码就好。

source /etc/network_turbo

继续打开一个笔记本,下载模型。

键入如下代码后运行:

!pip install modelscope

继续键入如下代码下载模型:

from modelscope.hub.snapshot_download import snapshot_download

model_dir = snapshot_download("iic/SenseVoiceSmall", cache_dir='ai_models')
print(model_dir)
model_dir = snapshot_download("iic/speech_fsmn_vad_zh-cn-16k-common-pytorch", cache_dir='ai_models')
print(model_dir)

出现进度条说明模型开始下载了。

然后回到终端,进入SenseVoice目录。

cd SenseVoice/

创建虚拟环境

# 创建一个名为venv 的虚拟环境。
python -m venv venv

接着激活虚拟环境。

 source ./venv/bin/activate

安装依赖

 pip install -r requirements.txt

安装好依赖以后,我们更新pip

pip install --upgrade pip

VsCode 远程连接

回到控制台,复制ssh配置。

打开Vsocode,远程连接。

粘贴登录信息

选择第一个默认配置。

选择第一个链接。

复制密码

粘贴密码

接着打开文件夹,选择/root/autodl-tmp/

选择信任

点击打开终端

接着激活虚拟环境。

 source ./venv/bin/activate

接着回到笔记本模型哪里,复制下载的模型路径。

回到VsCode ,编辑SenseVoice/webui.py,设置模型的路径为如下:

最后,见证奇迹的时候到了,运行我们的Python代码。

 python webui.py 

选择在浏览器打开。

接着,就可以快乐的玩耍了。

当我们上传音频时遇到了错误如下错误:

针对安装ffmpeg时遇到的问题,按以下步骤操作:

  1. 首先更新软件包列表:
sudo apt update
  1. 如果更新后仍无法安装,可能需要添加universe仓库:
sudo add-apt-repository universe
sudo apt update
  1. 然后再次尝试安装ffmpeg:
sudo apt install ffmpeg -y

如果还是不行,可能是ffmpeg所在的仓库没有启用。那么可以尝试:

  1. 启用multiverse仓库:
sudo add-apt-repository multiverse
sudo apt update
  1. 安装ffmpeg:
sudo apt install ffmpeg
### 关于 SenseVoice 的技术文档和使用指南 #### 功能概述 SenseVoice 是 FunAudioLLM 中的一部分,专注于多语言语音识别、情感检测以及特殊事件的捕捉。该模块可以迅速且精确地将各种音频文件中的语音换为文字内容[^1]。 #### 支持的语言种类 目前,SenseVoice 能够处理并理解广泛的世界主要语言及其方言版本,这使得它在全球范围内具有很高的适用性和灵活性。 #### 安装与配置环境 为了开始使用 SenseVoice API 或 SDK,开发者通常需要先安装相应的依赖库,并设置好开发环境。具体步骤如下所示: 对于 Python 用户来说,可以通过 pip 工具来安装官方发布的包: ```bash pip install sensevoice-api ``` 接着,在应用程序中引入必要的类库: ```python from sensevoice import SpeechRecognitionClient, EmotionDetectionClient ``` #### 基础接口调用示例 下面是一个简单的例子,展示了如何利用 SenseVoice 进行基本的语音文本换任务: ```python import os from sensevoice import SpeechRecognitionClient client = SpeechRecognitionClient(api_key='your_api_key_here') audio_file_path = 'path_to_your_audio.wav' result = client.transcribe(audio_file=audio_file_path) print(f'Transcription result: {result}') ``` 此代码片段实现了从指定路径加载 .wav 格式的音频文件,并将其发送给远程服务器进行处理;最终返回的是经过解析后的文本字符串。 #### 情感分析功能介绍 除了常规的文字写外,SenseVoice 还提供了强大的情感分析能力。借助内置的情感分类器,用户可以获得关于说话者当前心情状态的信息,比如高兴、悲伤或是愤怒等情绪标签。这些信息可以帮助构建更加智能化的人机交互体验。 #### 特殊事件侦测机制 针对某些特定场景下的需求(例如会议记录),SenseVoice 设计了一套高效的事件触发系统。当检测到诸如掌声、笑声或者其他显著的声音变化时,程序会自动标记相应的时间戳位置,便于后续的数据整理工作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

贾维斯Echo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值