OpenAI模型whisper 音频转文本-编程知识

OpenAI模型whisper 音频转文本

news/2025/1/10 21:11:39/文章来源:https://www.cnblogs.com/dx5800/p/18541448

最近有一个音频转文本的需求，了解到了OpenAI的whisper模型可以实现。
Whisper 是 OpenAI 提供的一个通用语音识别模型，支持多语言的音频转文本功能，并具有较高的准确性。它的主要用途包括自动语音识别 (ASR)、语言翻译（将音频直接翻译成英文文本）等。Whisper 支持将长时间音频文件（如对话、采访、演讲）转录成文字，并且在多语言环境下表现良好。

Whisper 的核心功能

音频转文本：自动将音频内容转录为文本。
多语言支持：Whisper 支持包括中文、法语、西班牙语、阿拉伯语等多种语言。
自动语言检测：能够识别音频语言，无需提前指定。
翻译：将非英文音频直接翻译成英文文本。

Whisper 模型的安装和使用

1. 下载 Whisper

git clone https://github.com/openai/whisper.git 
cd whisper
python -m venv myvenv #创建虚拟环境
venv\Scripts\activate #激活虚拟环境
pip install -r requirements.txt #在该虚拟环境下安装依赖库

2. 安装 ffmpeg

自行参考Windows安装安装ffmpeg
如果ffmpeg没有安装成功，运行代码会报如下错误：

我一开始碰到这个问题以为是音频文件的路径错了

3. 使用 Whisper 进行音频转文本

Whisper 提供了简单的 API，可以很方便地加载模型并进行转录。以下是一个基本的代码示例：


import whisper
from pathlib import Path
import jsonclass TextSegment:def __init__(self, text, begin, end):self.text = textself.begin = beginself.end = enddef to_dict(self):# 将对象转换为字典return {"text": self.text,"begin": self.begin,"end": self.end}def __repr__(self):return f'TextSegment(text="{self.text}", begin={self.begin}, end={self.end})'# 加载模型（可以选择不同大小的模型，越大准确率越高，但速度较慢）
model = whisper.load_model("tiny")  # 可选 "tiny", "base", "small", "medium", "large"# 转写音频文件path = Path("path/A.mp3")
result = model.transcribe(str(path))  # 替换为你的音频文件路径
print(result)
TextSegmentList = []for item in result['segments']:TextSegmentList.append(TextSegment(item["text"], item["start"], item["end"])) print(f"{item['text']}-----{item['start']}----{item['end']}")json_string = json.dumps([segment.to_dict() for segment in TextSegmentList], indent=4)
print(json_string)
with open(path.stem+'.txt', 'w') as file:file.write(json_string)

模型返回的数据结构如下所示：