OpenAI的Whisper蒸馏:速度提升6倍的Distil-Whisper

1 Distil-Whisper诞生

Whisper 是 OpenAI 研发并开源的一个自动语音识别(ASR,Automatic Speech Recognition)模型,他们通过从网络上收集了 68 万小时的多语言(98 种语言)和多任务(multitask)监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集,可以提高模型对口音、背景噪音和技术术语的识别能力。除了可以用于语音识别,Whisper 还能实现多种语言的转录,以及将这些语言翻译成英语。目前,Whisper 已经有了很多变体,也成为很多 AI 应用构建时的必要组件。

最近,来自 HuggingFace 的团队提出了一种新变体 —— Distil-Whisper。这个变体是 Whisper 模型的蒸馏版,特点是模型小、速度快,而且准确度还很高,非常适合在要求低延迟或资源有限的环境中运行。不过,与能够处理多种语言的原始 Whisper 模型不同,Distil-Whisper 只能处理英文。

 论文地址:https://arxiv.org/pdf/2311.00430.pdf

github地址:https://github.com/huggingface/distil-whisper

模型地址:https://aifasthub.com/models/openai

2 技术突破

Distil-Whisper不仅继承了原始Whisper模型的优秀血统,更在性能和速度上进行了显著的提升。专为英语设计的Distil-Whisper,在减小模型体积的同时,实现了处理速度的大幅跳跃,这在现有的AI语音识别技术中堪称一次创新的突破。

具体来说,Distil-Whisper 有两个版本,参数量分别为 756M(distil-large-v2)和 394M(distil-medium.en)。

与 OpenAI 的 Whisper-large-v2 相比,756M 版本的 distil-large-v2 参数量减少了一半还多,但实现了 6 倍的加速,而且在准确程度上非常接近 Whisper-large-v2,在短音频的 Word Error Rate(WER)这个指标上相差在 1% 以内,甚至在长音频上优于 Whisper-large-v2。这是因为通过仔细的数据选择和过滤,Whisper 的稳健性得以保持,幻觉得以减少。

3 与OpenAI Whisper比较

 

Distil-Whisper以更小的模型体积和更快的响应速度,展现了其在AI语音识别领域的独特价值。与OpenAI的Whisper相比,Distil-Whisper更适合运行在资源有限的设备上,如移动设备和嵌入式系统,同时其在长音频处理和噪声抑制上的表现,也显示了其独到的优势。

ModelParams / MRel. LatencyShort-Form WERLong-Form WER
whisper-large-v215501.09.111.7
distil-large-v27565.810.111.6
distil-medium.en3946.811.112.4

Distil-Whisper通过精心的数据选择和过滤,以及伪标签技术的应用,Distil-Whisper在保持原有模型鲁棒性的同时,实现了速度和性能的双重提升。这一技术的深度和细节,无疑将为AI语音识别领域带来新的启示。

Distil-Whisper的轻量化和高效性能使其在多种实际应用场景中大放异彩。无论是在快速的实时语音翻译,还是在嘈杂环境下的清晰语音捕捉,Distil-Whisper都能提供出色的解决方案,展现AI技术的实用性和创新性。

4 AI语音识别的新时代

随着Distil-Whisper这样的技术不断成熟和发展,我们正迈入一个全新的AI语音识别时代。这个时代不仅仅是关于技术的进步,更是关于如何将这些进步转化为实际应用,从而影响和改善我们的工作和生活。Distil-Whisper的出现,不仅为技术专家和开发者提供了新的工具,也为广大用户打开了通向便捷、高效未来世界的大门。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/189078.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue2 tinymce富文本插件

一、介绍 TinyMCE是一款易用、且功能强大的所见即所得的富文本编辑器。同类程序有:UEditor、Kindeditor、Simditor、CKEditor、wangEditor、Suneditor、froala等等。 TinyMCE的优势: 开源可商用,基于LGPL2.1插件丰富,自带插件基…

【网络安全】伪装IP网络攻击的识别方法

随着互联网的普及和数字化进程的加速,网络攻击事件屡见不鲜。其中,伪装IP的网络攻击是一种较为常见的攻击方式。为了保护网络安全,我们需要了解如何识别和防范这种攻击。 一、伪装IP网络攻击的概念 伪装IP网络攻击是指攻击者通过篡改、伪造I…

MIB 6.1810实验Xv6 and Unix utilities(5)find

难度:moderate Write a simple version of the UNIX find program for xv6: find all the files in a directory tree with a specific name. Your solution should be in the file user/find.c. 题目要求:实现find ,即在某个路径中,找出某…

Ansible密码正确但无法登录目标服务器

问题 通过ansible-playbook批量管理服务器,需要事先编写inventory文件,目标服务器均使用随机密码。在使用ansible-playbook和ansible命令时,均出现其中一台无法登录成功的问题。通过ssh命令,使用inventory中记录得用户名、密码测…

腾讯云重新注册算不算新用户?算!

腾讯云重新注册算新用户,但有以下限制: 首先,实名认证信息不能沿用老账号的信息,必须使用新的信息进行认证。这是为了确保重新注册的账号能够被视为新用户,并享受到新用户的特权和优惠。 腾讯云双十一领9999代金券 h…

聚观早报 |联想集团Q2财季业绩;小鹏汽车Q3营收

【聚观365】11月17日消息 联想集团Q2财季业绩 小鹏汽车Q3营收 微软发布两款自研AI芯片 FAA批准SpaceX再次发射星际飞船 2023 OPPO开发者大会 联想集团Q2财季业绩 全球数字经济领导企业联想集团公布截至2023年9月30日的2023/24财年第二财季业绩:整体营收达到10…

安装应用与免安装应用差异对比

差异 安装的程序和免安装的应用程序之间有以下几个方面的差别: 安装过程:安装的程序需要通过一个安装程序或安装脚本进行安装。这个过程通常会将应用程序的文件和依赖项复制到指定的目录,并进行一些配置和注册操作。免安装的应用程序则不需要…

达芬奇DaVinci Resolve Studio 18.6.3 for Mac

DaVinci Resolve Studio 18是一款专业的视频编辑和调色软件,适用于电影、电视节目、广告等各种视觉媒体的制作。它具有完整的后期制作功能,包括剪辑、调色、特效、音频处理等。 以下是DaVinci Resolve Studio 18的主要特点: - 提供了全面的视…

【Git学习二】时光回溯:git reset和git checkout命令详解

😁 作者简介:一名大四的学生,致力学习前端开发技术 ⭐️个人主页:夜宵饽饽的主页 ❔ 系列专栏:JavaScript小贴士Git等软件工具技术的使用 👐学习格言:成功不是终点,失败也并非末日&a…

基于协作mimo系统的RM编译码误码率matlab仿真,对比硬判决译码和软判决译码

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程序 ..................................................................... while(Err < TL…

某app c++层3处魔改md5详解

hello everybody,本期是安卓逆向so层魔改md5教学,干货满满,可以细细品味,重点介绍的是so层魔改md5的处理. 常见的魔改md5有: 1:明文加密前处理 2:改初始化魔数 3:改k表中的值 4:改循环左移的次数 本期遇到的是124.且循环左移的次数是动态的,需要前面的加密结果处理生成 目录…

Day33力扣打卡

打卡记录 最大和查询&#xff08;排序单调栈上二分&#xff09; 链接 大佬的题解 class Solution:def maximumSumQueries(self, nums1: List[int], nums2: List[int], queries: List[List[int]]) -> List[int]:ans [-1] * len(queries)a sorted(((a, b) for a, b in zi…