【OpenAI】第六节（语音生成与语音识别技术）从 ChatGPT 到 Whisper 的全方位指南

XinZong-千鑫

已于 2024-10-23 10:51:10 修改

阅读量1.4k

点赞数 32

分类专栏： OpenAI系列教程文章标签：语音识别 chatgpt whisper codemoss能用AI 人工智能 openai gpt-3

于 2024-10-23 10:50:49 首次发布

本文链接：https://blog.csdn.net/zhouzongxin94/article/details/143177850

版权

前言

在人工智能的浪潮中，语音识别技术正逐渐成为我们日常生活中不可或缺的一部分。随着 OpenAI 的 Whisper 模型的推出，语音转文本的过程变得前所未有的简单和高效。无论是从 YouTube 视频中提取信息，还是将播客内容转化为文本，Whisper 都能帮助我们轻松实现这一目标。今天，我们将深入探讨 Whisper 的强大功能，并提供详细的使用教程，让你能够快速上手这一技术。🌟

文章目录

一、Whisper 简介

Whisper 是 OpenAI 开发的一款先进的语音识别系统，经过 680,000 小时的多语言和多任务监督数据训练，具备了强大的鲁棒性。它不仅支持多种语言的转录，还能将这些语言翻译成英语。与其他 AI 模型不同，Whisper 是一个开源模型，开发者可以自由使用和修改。

Whisper 的优势

开源免费：开发者可以自由使用和修改代码。
多语言支持：包括中文、英文等多种语言。
高准确率：在多种场景下表现优于市面上许多音频转文字工具。

二、Whisper 可用的模型和语言

Whisper 提供了五种不同尺寸的模型，适用于不同的应用场景。以下是可用型号及其大致的内存需求和相对速度：

tiny：适合快速测试，内存占用小。
base：适合一般应用，速度和准确性平衡。
small：适合对准确性有一定要求的应用。
medium：适合需要较高准确率的场景。
large：适合对准确性要求极高的应用，但需要较大的显存。

语言支持

Whisper 支持多种语言的转录，具体性能因语言而异。通过使用 Fleurs 数据集，Whisper 在不同语言上的表现可以通过单词错误率（WER）进行评估，数字越小，性能越好。

三、开源 Whisper 本地转录

3.1、安装 pytube 库

在开始使用 Whisper 进行转录之前，我们需要安装 pytube 库，以便从 YouTube 下载音频。

pip install --upgrade pytube

3.2、下载音频 MP4 文件

以“100 秒学习 Python”视频为例，视频地址为：https://www.youtube.com/watch?v=x7X9w_GIm1s。

import pytube

video = "https://www.youtube.com/watch?v=x7X9w_GIm1s"
data = pytube.YouTube(video)
audio = data.streams.get_audio_only()
audio.download()

3.3、安装 Whisper 库

接下来，我们需要安装 Whisper 库：

pip install git+https://github.com/openai/whisper.git -q

加载模型并转录音频文件：

import whisper

model = whisper.load_model("base")
text = model

最低0.47元/天解锁文章