开源免费软件推荐:搭建本地网络内的语音转文字工程。

引言:

BUZZ作为语音转文字本地话的初级尝试,已经展现出了其独特魅力。然而,当你遇到Whisper STT时,你会发现它堪称语音转文字领域的巅峰之作。今天,我们隆重推荐一款基于fast-whisper开源模型的本地语音识别转文字工具的网页版。它不仅仅是一个简单的工具,更是一个能够让大家共同参与的互动平台,无论是投放在局域网还是公网都毫无压力。

一、Voice Recognition to Text Too (开发者没给起中文名字)

这款工具能够精准识别视频/音频中的人类声音,并将其转化为文字,支持输出json格式、srt字幕带时间戳格式以及纯文字格式。你可以轻松部署它,替代openai的语音识别接口或百度语音识别等,而其准确率几乎与openai官方api接口持平。

项目地址:https://github.com/jianchang512/stt
项目所需要的模型地址:https://github.com/jianchang512/stt/releases/tag/0.0

测试环境:轻量云2C+4G+8M

注意:这货会把模型塞到内存里,低于2G内存只能跑Base模型。
支持语言:中文、英文、法语、德语、日语、韩语、俄语、西班牙语、泰国语、意大利语、葡萄牙语、越南语、阿拉伯和土耳其语。

二、软件使用办法

使用过程简单便捷,只需部署或下载后双击start.exe,即可自动调用本地浏览器打开本地网页。通过拖拽或点击,你可以轻松选择要识别的音频或视频文件,然后选择发声语言、输出文字格式以及所用模型(已内置base模型)。点击开始识别后,识别结果将以所选格式直接展示在当前网页上。

本次以windos为例

1、打开样子如下(windows会启动一个Dos程序)

2、测试个MP3

点击上传(可以试听),点击立即识别即可(如果有GPU,会更快)。

3、测试结果

①基础模型(Base)会有一定的错误,结果如下(软件和buzz一样的)

②small模型会好一些(需要提前下载解压Models里)如下图所示。

扫描结果如下,显然比base好许多(有概率出现繁体中文)

导出结果如下:(繁体+简体)的随缘结果。

总得来说已经很好了,毕竟——免费不是么?

三、为啥推荐这个?

这玩意更令人惊喜的是,整个过程无需联网,完全本地运行,因此你可以放心地将其部署于内网环境。而fast-whisper开源模型提供了base/small/medium/large-v3等多种选择,内置了base模型。从base到large-v3,识别效果逐步提升,但所需的计算机资源也会相应增加(内存)。你可以根据实际需求自行下载并解压到models目录下,轻松实现模型的替换与升级。

如果说Buzz是基础,那么这个可是神器(有网页版~你甚至可以放到公网上耍耍)。如果你有前端能力,可以在templates目录下看到网页,可以随便改改。然后做个个映射即可。

如果需要修改端口:配置文件如下

通过映射本地端口到公网,可以使外网能够直接访问到界面,实现本地和公网的互通使用。然而,这种映射方式存在一定的安全风险,因此在实际操作中需要谨慎对待。

四、其他问题:

1、关于模型

model: 模型名称,对应模型文件在models目录下的位置,可选值如下:

base:对应于models/models--Systran--faster-whisper-base

small:对应于models/models--Systran--faster-whisper-small

medium:对应于models/models--Systran--faster-whisper-medium

large-v3:对应于models/models--Systran--faster-whisper-large-v3

2、关于AIP接口

接口地址: http://127.0.0.1:9977/api

请求方法: POST

请求实例:

Api python请求示例

import requests

# 请求地址

url = "http://127.0.0.1:9977/api"

# 请求参数

file:音视频文件,

language:语言代码,

model:模型,

response_format:text|json|srt

# 返回 code==0 成功,其他失败,msg==成功为ok,其他失败原因,data=识别后返回文字

files = {"file": open("C:/Users/c1/Videos/2.wav", "rb")}

data={"language":"zh","model":"base","response_format":"json"}

response = requests.request("POST", url, timeout=600, data=data,files=files)

print(response.json())

API curl请求实例

参数注释:
@后是文件 如D盘下单简单爱.MP
语言:language 设置为zh中文
服务器ip: 127.0.0.1:9977
输出文件:response.txt

curl -X POST \ -H "Content-Type: multipart/form-data" \ -F "file=@d:\简单爱 - 周杰伦.mp3" \ -F "language=zh" \ -F "model=base" \ -F "response_format=txt" \ http://127.0.0.1:9977/api > response.txt

Windows的Dos环境,直接粘贴

请求会返回结果至response.txt文件(注意,我这里在c:\users\zxl\目录下,自己Curl,注意返回的目录)。由于返回的是是unicode 编码,需要转换。如下图

PS,Windows的Curl 返回的都是unicode编码,需要转换下。

总结:

这款基于fast-whisper开源模型的语音转文字工具,无论是在Windows还是Linux/Mac系统上,都能提供高效、准确的语音识别服务,为您的工作和学习带来极大的便利。

无论是个人使用还是团队协作,这款基于fast-whisper开源模型的本地语音识别转文字工具网页版都将为你带来前所未有的便捷与高效体验。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/575604.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HTB devvortex靶机记录

做这个靶机的师傅们我先提一句,不知道是否是因为网速还是其他因素影响,登录后台管理后,有大概率会被其他人挤下去,所以做这道题的师傅可以考虑在没人的时候去做。 打开靶场以后老规矩nmap扫一遍 这里爆出了80端口和22端口&#xf…

24计算机考研调剂 | 重庆工商大学

重庆工商大学 考研调剂招生信息 招生专业: 调剂基本条件: 1.调剂考生第一志愿专业与调入专业相同相近,或初试科目与调入专业初试科目相同相近; 2.我校只接收外国语考试科目为(英语)的调剂考生&#xff1b…

前端项目在本地localhost可以调取到拍照或麦克风等设备,但是在局域网内IP+端口号访问项目时访问不到设备

前端项目在本地localhost可以调取到拍照或麦克风等设备,但是在局域网内IP端口号访问项目时访问不到设备,调取navigation.mediaDevices时本科可以获取到mediaDevices列表,局域网内ip端口访问时获取不到mediaDevices。 原因: 存在…

【C语言基础】:数据在内存中的存储

文章目录 一、整数在内存中的存储二、大小端字节序和字节序判断1. 为什么有大小端?2. 练习 三、浮点数在内存中的存储1. 浮点数的存储1.1 浮点数的存储过程1.2 浮点数取的过程 四、题目解析 书山有路勤为径,学海无涯苦作舟。 创作不易,宝子们…

如何在Apache Arrow中定位与解决问题

如何在apache Arrow定位与解决问题 最近在执行sql时做了一些batch变更,出现了一个 crash问题,底层使用了apache arrow来实现。本节将会从0开始讲解如何调试STL源码crash问题,在这篇文章中以实际工作中resize导致crash为例,引出如何…

|行业洞察·趋势报告|《2024旅游度假市场简析报告-17页》

报告的主要内容解读: 居民收入提高推动旅游业发展:报告指出,随着人均GDP的提升,居民的消费能力增强,旅游需求从传统的观光游向休闲、度假游转变,国内人均旅游消费持续增加。 政府政策促进旅游市场复苏&…

jenkins拉取java远程日志

1、安装插件,AnsiColor 2、选择颜色日志输出 3、脚本编写 echo -e "\e[1;32m##################java start check #####################\e[0m" bssh -p X rootX.X.X.X "ssh rootX.X.X.X ps axu|grep -w XXX.jar|grep -v "grep"|wc -l&…

【I.MX6ULL移植】Ubuntu-base根文件系统移植

1.下载Ubuntu16.04根文件系统 http://cdimage.ubuntu.com/ 1 2 3 4 5 2.解压ubuntu base 根文件系统 为了存放 ubuntu base 根文件系统,先在 PC 的 Ubuntu 系统中的 nfs 目录下创建一个名为 ubuntu_rootfs 的目录,命令如下: 【注意&…

ES学习日记(一)-------单节点安装启动

基于ES7.4.1编写,其实一开始用的最新的8.1,但是问题太多了!!!!不稳定,降到7.4 下载好的安装包上传到服务器或虚拟机,创建ES目录,命令mkdir -p /路径xxxx 复制安装包到指定路径并解压: tar zxvf elasticsearch-8.1.0-linux-x86_64.tar.gz -C /usr/local/es/ 进入bin目录安装,命…

k8s-jenkins安装与流水线

k8s-jenkins安装与流水线 一、环境安装1.创建目录2.后台启动服务3.浏览器访问4.修改密码 二、流水线1.新建流水线任务2.运行流水线3.安装插件4.安装Kubernetes CLI 三、总结 一、环境安装 如果使用的是阿里云Kubernetes集群 ,可以安装其 ack-jenkins应用。 5分钟在…

unity学习(76)--窗口化和后台运行

1.通过如下方式将编译的游戏设置为窗口模式。 成功: 2.现在只有鼠标点击的窗体游戏运动,其他窗体游戏都会卡住。 2.1build setting中 2.2unity内部Project Settings 也被同步修改了

【案例·增】一条insert语句批量插入多条记录

问题描述: 往MySQL中的数据库表中批量插入多条记录,可以使用 SQL 中的 ((), ()…)来处理 案例: INSERT INTO items(name,city,price,number,picture) VALUES(耐克运动鞋,广州,500,1000,003.jpg),(耐克运动鞋2,广州2,500,1000,002.jpg);规则…