【MacOS】openai 语音识别模型 whisper 本地部署教程(cpu+mps方案)

目录

1. whisper 安装

openai-whisper

参考视频链接与安装过程

安装homebrew

安装Python (不要超过3.10)

安装Pytorch

安装ffmpeg

安装rust

安装whisper

注意事项

可能报错问题

2. 无法使用mac gpu 👉 使用whisper.cpp

​​​​​​​操作步骤

可能报错问题

3. 生成翻译字幕


系统环境:M1pro macOS 13.6

1. whisper 安装

openai-whisper

        以下的语言全部支持识别,数字越小的识别越准确

GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak SupervisionRobust Speech Recognition via Large-Scale Weak Supervision - openai/whispericon-default.png?t=O83Ahttps://github.com/openai/whisper      

参考视频链接与安装过程

MACOS本地部署whisper ai, 一键生成中英文视频字幕_哔哩哔哩_bilibiliicon-default.png?t=O83Ahttps://www.bilibili.com/video/BV1GL411m7mv/?vd_source=c73b771a66067f7c5859120eb61e27aa

  1. 安装homebrew

    Homebrewicon-default.png?t=O83Ahttps://brew.sh/

  2. 安装Python (不要超过3.10)

  3. 安装Pytorch

     在官网按照以下方式选择以后,在终端输入下面的命令 安装pytorchvvhttps://pytorch.org/get-started/locally/https://pytorch.org/get-started/locally/icon-default.png?t=O83Ahttps://pytorch.org/get-started/locally/

  4. 安装ffmpeg

    brew install ffmpeg
    
  5. 安装rust

    pip install rust
  6. 安装whisper

    pip install -U openai-whisper
    

注意事项

  1. python版本不要超过3.10
  2. 在Jupyter notebook使用 最好使用 homebrew 安装 ffmpeg

可能报错问题

  1. homebrew安装报错 👉 使用命令2安装


2. 无法使用mac gpu 👉 使用whisper.cpp

GitHub - ggerganov/whisper.cpp: Port of OpenAI's Whisper model in C/C++Port of OpenAI's Whisper model in C/C++. Contribute to ggerganov/whisper.cpp development by creating an account on GitHub.icon-default.png?t=O83Ahttps://github.com/ggerganov/whisper.cpp 前面的whisper.ai我自己测试下来只能用cpu跑,命令行加上--device mps会报错,大家可以试一下,如果没问题的话可以继续用whisper.ai。

github上很多也反馈存在上述问题,无法使用mps。用cpu的处理速度比较慢,下面用whisper.cpp解决这个问题。测试下来速度有明显提升,大约3min可以用medium模型处理15min的日语视频。

​​​​​​​操作步骤

       1. 安装whisper.cpp

  • git clone <https://github.com/ggerganov/whisper.cpp.git>
    
  • 2. 打开网站,下载模型和对应.mlmodelc,放入whisper.cpp/model 文件夹中

    ggerganov/whisper.cpp at mainicon-default.png?t=O83Ahttps://huggingface.co/ggerganov/whisper.cpp/tree/main

  • 3. 把文件转换成wav文件(视频文件需要先事先提取音频)

    ffmpeg -i ./xxxx.mp3 -ar 16000 -ac 1 -c:a pcm_s16le ./xxxx.wav
    
  • 4. 输入命令,并生成srt文件

    ./main -m models/ggml-medium.bin -f samples/xxxx.wav -l ja -osrt
    

可能报错问题

        输入指令后一直卡死,把下面的进程kill掉

        


3. 生成翻译字幕

### Whisper 本地安装教程 #### 环境准备 为了成功在本地环境中安装并运行 Whisper,需先确认操作系统及其版本。以下是针对不同操作系统的具体安装指南。 --- #### macOS (基于 M1 Pro, macOS 13.6) macOS 用户可以按照以下步骤完成 Whisper 的安装: 1. **Python 安装** - 推荐使用 Python 3.9 或更高版本。可以通过 Homebrew 来安装最新版的 Python[^3]。 ```bash brew install python@3.9 ``` 2. **依赖库管理工具 Conda** - 使用 Anaconda 或 Miniconda 创建虚拟环境以隔离项目依赖项。 ```bash conda create -n whisper-env python=3.9 conda activate whisper-env ``` 3. **Whisper 库安装** - 在激活的虚拟环境下通过 pip 安装 `openai-whisper`。 ```bash pip install git+https://github.com/openai/whisper.git ``` 此命令会自动拉取最新的 Whisper 版本并解决其依赖关系[^1]。 4. **FFmpeg 配置** - FFmpeg 是处理音频文件的重要工具,可通过 Homebrew 轻松安装。 ```bash brew install ffmpeg echo 'export PATH="/usr/local/opt/ffmpeg/bin:$PATH"' >> ~/.zshrc source ~/.zshrc ``` 5. **验证 GPU 支持** - 对于 Apple Silicon 设备(如 M1/M2),推荐利用 MPS 后端加速推理速度。确保 PyTorch 已正确配置支持 MPS 加速。 ```python import torch print(torch.backends.mps.is_available()) # 输出 True 表明可用 ``` --- #### Windows 系统安装流程 对于 Windows 平台上的用户,则可遵循如下方法来设置开发环境: 1. **Python 和 Anaconda 下载** - 访问官方站点下载适用于 Windows 的 Python 3.11 及 Anaconda 发行包[^2]。 2. **创建新环境** - 执行以下指令建立名为 “whisper”的独立工作区: ```bash conda create -n whisper python=3.11 conda activate whisper ``` 3. **引入必要模块** - 利用 pip 命令获取所需软件包以及额外资源: ```bash pip install git+https://github.com/openai/whisper.git pip install ffmpeg-python ``` 4. **测试初始执行状况** - 尝试加载预训练模型并对样例数据进行转录分析,以此检验整体架构是否正常运作。 ```python import whisper model = whisper.load_model("base") result = model.transcribe("audio.mp3") print(result["text"]) ``` 5. **检查硬件兼容性** - 如果计算机配备 NVIDIA 显卡,请进一步核实 CUDA 是否被妥善集成到现有框架之中以便充分发挥图形处理器效能。 --- #### 自定义编译方式——whisper.cpp 除了上述两种主流途径外,还存在一种更为灵活的选择即采用 C++ 实现版本—whisper.cpp 。它允许开发者自行调整参数甚至优化性能表现而无需受限于特定平台约束条件限制: 1. 克隆仓库至本地磁盘位置; ```bash git clone https://github.com/ggerganov/whisper.cpp.git cd whisper.cpp ``` 2. 编译源码生成二进制文件; ```bash make ./main -h ``` 3. 提供输入音轨路径启动转换进程; ```bash ./main -f your_audio_file.wav ``` 以上便是关于如何从零起步搭建属于自己的 Whisper 系统实例指导说明文档全文内容总结概述完毕! ---
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值