【MacOS】openai 语音识别模型 whisper 本地部署教程(cpu+mps方案)

目录

1. whisper 安装

openai-whisper

参考视频链接与安装过程

安装homebrew

安装Python (不要超过3.10)

安装Pytorch

安装ffmpeg

安装rust

安装whisper

注意事项

可能报错问题

2. 无法使用mac gpu 👉 使用whisper.cpp

​​​​​​​操作步骤

可能报错问题

3. 生成翻译字幕


系统环境:M1pro macOS 13.6

1. whisper 安装

openai-whisper

        以下的语言全部支持识别,数字越小的识别越准确

GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak SupervisionRobust Speech Recognition via Large-Scale Weak Supervision - openai/whispericon-default.png?t=N7T8https://github.com/openai/whisper      

参考视频链接与安装过程

MACOS本地部署whisper ai, 一键生成中英文视频字幕_哔哩哔哩_bilibiliicon-default.png?t=N7T8https://www.bilibili.com/video/BV1GL411m7mv/?vd_source=c73b771a66067f7c5859120eb61e27aa

  1. 安装homebrew

    Homebrewicon-default.png?t=N7T8https://brew.sh/

  2. 安装Python (不要超过3.10)

  3. 安装Pytorch

     在官网按照以下方式选择以后,在终端输入下面的命令 安装pytorchvvhttps://pytorch.org/get-started/locally/https://pytorch.org/get-started/locally/icon-default.png?t=N7T8https://pytorch.org/get-started/locally/

  4. 安装ffmpeg

    brew install ffmpeg
    
  5. 安装rust

    pip install rust
  6. 安装whisper

    pip install -U openai-whisper
    

注意事项

  1. python版本不要超过3.10
  2. 在Jupyter notebook使用 最好使用 homebrew 安装 ffmpeg

可能报错问题

  1. homebrew安装报错 👉 使用命令2安装


2. 无法使用mac gpu 👉 使用whisper.cpp

GitHub - ggerganov/whisper.cpp: Port of OpenAI's Whisper model in C/C++Port of OpenAI's Whisper model in C/C++. Contribute to ggerganov/whisper.cpp development by creating an account on GitHub.icon-default.png?t=N7T8https://github.com/ggerganov/whisper.cpp 前面的whisper.ai我自己测试下来只能用cpu跑,命令行加上--device mps会报错,大家可以试一下,如果没问题的话可以继续用whisper.ai。

github上很多也反馈存在上述问题,无法使用mps。用cpu的处理速度比较慢,下面用whisper.cpp解决这个问题。测试下来速度有明显提升,大约3min可以用medium模型处理15min的日语视频。

​​​​​​​操作步骤

       1. 安装whisper.cpp

  • git clone <https://github.com/ggerganov/whisper.cpp.git>
    
  • 2. 打开网站,下载模型和对应.mlmodelc,放入whisper.cpp/model 文件夹中

    ggerganov/whisper.cpp at mainicon-default.png?t=N7T8https://huggingface.co/ggerganov/whisper.cpp/tree/main

  • 3. 把文件转换成wav文件(视频文件需要先事先提取音频)

    ffmpeg -i ./xxxx.mp3 -ar 16000 -ac 1 -c:a pcm_s16le ./xxxx.wav
    
  • 4. 输入命令,并生成srt文件

    ./main -m models/ggml-medium.bin -f samples/xxxx.wav -l ja -osrt
    

可能报错问题

        输入指令后一直卡死,把下面的进程kill掉

        


3. 生成翻译字幕

  • 29
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
Java百度AI实时语音识别是指使用Java编程语言和百度AI平台中的实时语音识别技术进行语音识别的过程。 首先,Java是一种跨平台的编程语言,具有广泛应用的特点。使用Java可以轻松地编写和运行跨平台的程序,无论是在Windows、Linux还是MacOS等操作系统上,都可以运行Java程序。 百度AI平台是一种人工智能技术的集成平台,提供了丰富的AI技术接口和服务,其中包括实时语音识别。实时语音识别是指将实时的语音输入转换为文字输出的过程。通过百度AI平台的实时语音识别接口,可以实时地将语音转换为文字,并进行一些必要的语音分析和处理。 使用Java进行百度AI实时语音识别可以通过调用百度AI平台提供的Java开发包或API来实现。通过使用API,我们可以将语音数据发送到百度AI平台,然后获取返回的识别结果。在Java中,我们可以使用HTTP协议进行数据的传输和通信,并使用相关的类和方法来发送和接收数据。 在实时语音识别的过程中,需要注意一些问题,比如语音的在线传输和实时识别的延迟等。为了提高实时性,可以采用音频流的方式进行传输,这样可以实时地将音频数据发送到百度AI平台。同时,可以优化Java程序的性能,提高识别的速度和准确性。 总之,利用Java编程语言和百度AI平台提供的实时语音识别技术,可以实现语音转换为文字的实时识别功能。这种技术在语音识别、语音输入和人机交互等方面有着广泛的应用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值