字幕切分视频

Whisper

仓库地址:
https://github.com/openai/whisper
可用模型信息:
在这里插入图片描述
测试视频:18段,总共447S视频(11段前:有11段开头有停顿的视频)
Tiny: 跑完:142S ,11段前,对0段,18段中,对10段,5段后,对5段。
Large:跑完:941S,11段前,对0段,18段中,对2段,5段后,对4段。
WhisperX:跑完:143S ,11段前,对10段,18段中,对17段,5段后,对5段。
开口说话到,发出音,大概有13,14,12,20,帧左右的误差,也就是说有0.8S左右的误差,所以建议,如果取无声音频,end要往前挪10帧。
有的人,在静默的时候还咧嘴笑一笑
一句话说完,从没有声音到完全闭上嘴,大概有5帧,8帧,10帧左右,大概有0.4S左右的误差。
WhisperX误差统计(单位:秒):
在这里插入图片描述
总结:1)WhisperX会在视频停顿空语音前,比label都早停顿。缺点:一句话后几个字可能被裁减掉,对我们的影响是浪费不到1秒的原数据。优点:没语音了,嘴没闭的情况可以解决;
2)WhisperX会在视频停顿空语音后,比label都晚停顿。缺点:一句话开头几个字可能被裁减掉,对我们的影响是浪费不到1秒的原数据。优点:说话前,嘴动了,却还没发出声的情况,过滤掉。

whisperX

牛津大学的博士生Max Bain开源的模型
https://github.com/m-bain/whisperX
效果如上表所示,很好。
WhisperX accepted at INTERSPEECH 2023

达摩院语音团队Paraformer

https://github.com/alibaba-damo-academy/FunASR
效果:
在这里插入图片描述
即:每个字都有start 和end时间戳,没有断句的功能

飞书秒记

https://www.feishu.cn/product/minutes
只有字幕,没有时间戳

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/29675.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在线乞讨系统 Docker一键部署

begger乞讨网 在线乞讨 全球要饭系统前端界面后端界面H2 数据库 console运行命令访问信息支付平台 在线乞讨 全球要饭系统 在线乞讨全球要饭项目,支持docker一键部署,支持企业微信通知,支持文案编辑 前端界面 后端界面 H2 数据库 console 运行命令 项…

PID算法

PID,就是“比例(proportional)、积分(integral)、微分(derivative)”,是一种很常见的控制算法。 需要将一个物理量保持在稳定状态(比如维持平衡,温度、转速的…

《微服务架构设计模式》第十三章 微服务架构的重构策略

微服务架构的重构策略 一、重构到微服务需要考虑的问题1、为什么重构2、重构形式3、重构策略 二、设计服务与单体的协作方式三、总结 一、重构到微服务需要考虑的问题 1、为什么重构 单体地狱造成的业务问题: 交付缓慢充满故障的软件交付可扩展性差 2、重构形式 …

前端 | (六)CSS盒子模型 | 尚硅谷前端html+css零基础教程2023最新

学习来源:尚硅谷前端htmlcss零基础教程,2023最新前端开发html5css3视频 文章目录 📚元素的显示模式🐇CSS长度单位🐇元素的显示模式⭐️块元素(block)⭐️行内元素(inline&#xff09…

浅谈电能分项计量在节能降耗中的应用

摘要:随着电力企业改革活动的持续推进,要想加快改革进程、优化改革效果,应该提高对节能降耗问题的关注度。在应用电力计量技术的过程中巧妙地渗透节能降耗这一理念,以此提高技术应用率,充分体现技术应用价值&#xff0…

selenium-多窗口和frame处理

1.切换窗口 适用场景:点击按钮后,重新打开一个窗口,想要在新的窗口定位操作,就需要切换窗口 原理:获取窗口的唯一标识就是句柄,获取到句柄,就可以切换到对应的窗口了 处理方法: …

S3C2440点亮LED(裸机开发)

文章目录 前言一、环境介绍一、GPIO介绍二、点亮开发板的LED1.预备动作2.led代码 总结 前言 本期和大家主要分享的是使用S3C2440开发板点亮一个LED灯,可能大家拿到开发板之后做的第一件事情都是点灯,这是为什么呢?因为点灯这件事情不仅能够检…

curl操作

下载路径:https://curl.se/windows/ 参考:https://blog.csdn.net/weixin_45191386/article/details/130652821 操作: curl http://localhost:8085/api/v1/aaa/bbbb/?ccc 652781344055627776

如何在PADS Logic中查找器件

PADS Logic提供类似于Windows的查找功能,可以进行器件的查找。 (1)在Logic设计界面中,将菜单显示中的“选择工具栏”进行打开,如图1所示,会弹出对应的“选择工具栏”的分栏菜单选项,如图2所示。…

【ArcGIS Pro二次开发】(46):要素类从上到下、从左到右排序

要素类经过编辑之后,【OBJECTID】字段会变得不规律。应部分网友要求,做了这个从上到下、从左到右排序的工具。 不过后来在ArcGIS Pro中发现了一个【排序】工具,已经可以完美实现这个功能需求,发现自己做了个白工。 不过做了不能白…

实例019 以图形按钮显示的界面

实例说明 菜单和工具栏虽然能方便用户操作程序的相应功能,但各有缺点。如果采用按钮式功能菜单,不但美观大方,而且操作灵活。当单击按钮时,用户区将显示相应的操作按钮组。下面介绍图形界面式菜单的设计方法。运行本例&#xff0…

算法与数据结构-排序

文章目录 一、如何分析一个排序算法1.1 排序算法的执行效率1.1.1 最好情况、最坏情况、平均情况时间复杂度1.1.1.1 最好、最坏情况分析1.1.1.2 平均情况分析 1.1.2 时间复杂度的系数、常数 、低阶1.1.3 比较次数和交换(或移动)次数 1.2 排序算法的内存消…