HTK-HResults计算ASR字错、句错

news/2024/12/12 17:16:40/文章来源:https://www.cnblogs.com/hunter-test/p/18603019

工作中有测试AI智能助手,当时没有工具,脚本来不及写,人工手动进行测试,从头到尾人工手动测试比对,字错和句错也都是直接在excel中计算,感触就是,确实很累人!
接触HTK,有文章已经写过下载以及安装,详情请看HTK下载安装以及示例
先来介绍一下基本概念
一、语音识别(ASR)
语音识别(speech recognition)技术,也被称为自动语音识别(英语:Automatic Speech Recognition, ASR)
狭隘一点白话说:将语音转换为文字的技术。

二、句错率(SER)
句错误率:Sentence Error Rate
解释:句子识别错误的的个数,除以总的句子个数即为SER
计算公式:

SER=错误句数/总句数

三、字错率(WER/CER)
WER,Word error rate,词错率,但一般称为字错率,是语音识别领域的关键性评估指标,WER越低表示效果越好!
CER,Character Error Rate,字符错误率,中文一般用CER来表示字错率。
计算方式:

WER=(S+D+I)/N=(S+D+I)/(S+D+C)

S--被替换的字数
D--被删除的字数
I--被插入的字数
C--识别正确的字数
N=S+D+C

四、字成功率(W.Corr)和字正确率(W.Acc)
字正确率,Word Correct,一般国内宣传用的多,识别率(识别正确率)达到多少多少。
计算公式:

W.Corr=(N-S-D)/N=C-N

W.Acc=1-WER=(N-S-D-I)/N

五、问题
1、WER会大于1(100%),按照上述计算方式,I的字数较多情况下会出现、
之前手工测试的时候,N是按照实际句子总字符数算的,不知道合理不合理,沟通的时候就这么定的,哈哈哈~
2、字错率的概念,WER和CER,字错和字符错,这里是按照:一个汉字=一个word计算,天=day
之前手工测试的时候,一个英文字母等同于一个汉字,会议沟通确认过的,怎么要求怎么来呗~
3、字正确率,只计算了识别正确的字,没有管多出来的字
4、同理,因为有插入的字,所以计算结果会有负数

六、HTK之HResults的使用
开头有讲HTK的下载安装,但是没有模型训练,因为还没有接触,暂时先不了解,后续有机会在看
下面是使用方式,本地用一个小demo已经测试过了,可以直接使用,下面是使用步骤:
1、整理已有的txt文档,需要输入的指令,去除标点符号,按序号写入,如下:
1 今天天气怎么样
2 明天天气怎么样
保存为txt文件,命名src.txt
2、查看设备识别的ASR结果,整理到txt文档,按序号写入,如下:
1 惊天天气
2 明天天怎么啊
保存为txt文件,命名为testResult.txt
3、将上述两个txt文件转换为mlf文件,可以百度下,或写个python脚本
脚本可以从语音识别ASR获取
4、最终终端命令比对
HResults -t -I src.mlf NUL testResult.mlf
输入命令需注意:
1.上述转换的mlf文件需要放置在htk根目录下
2.终端可以先行展示中文字符:chcp 65001,然后输入命令

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/851468.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RenderDoc在Texture View中使用自定义的Shader

简单介绍一下如何在RenderDoc中使用Channels设定为Custom后的Shader; 官方文档:How do I use a custom visualisation shader?在Texture View中设置Channels为Custom; 输入新创建的Shader名称及后缀;点击绿色加号创建Custom Shader,创建的hlsl保存会在C:\Users\PC\AppDat…

ASE50N06-ASEMI中低压N沟道MOS管ASE50N06

ASE50N06-ASEMI中低压N沟道MOS管ASE50N06编辑:ll ASE50N06-ASEMI中低压N沟道MOS管ASE50N06 型号:ASE50N06 品牌:ASEMI 封装:TO-252 批号:最新 最大漏源电流:50A 漏源击穿电压:60V RDS(ON)Max:15mΩ 引脚数量:3 芯片个数: 沟道类型:N沟道MOS管、低压MOS管 漏电流:…

【算法基础】图的存储与遍历

一、图的存储 在我们存储图的时候,主要使用邻接矩阵、邻接表两种方式来存储。通常邻接矩阵存储稠密图(边多),临界矩阵存储稀疏图(边少)。1.1 邻接矩阵存储 邻接矩阵听起来比较高大上,其实就是用二维数组来表示 \(a\) 点与 \(b\) 点之间有一条边。例如在上述无向图中 \(1…

解决Pandas的to_excel()写入不同Sheet,而不会被重写

一、问题描述 在使用Pandas的to_excel()方法写入数据时,当我们想将多个数据写入一个Excel表的不同DataFrame中,虽然能够指定sheet_name参数,但是会重写整个Excel之后才会存储。 现在有3个sheet,内容如下:>>> import pandas as pd >>> df1 = pd.read_exc…

基于Transformer的生成式人工智能模型的训练和推理以及成员推断攻击的实现

Transformer_AI 2024年11月15日更新 在此教程中,我们将对基于Transformer的生成式人工智能模型及其原理进行一个简单的介绍,并实现其训练和推理过程,且至少支持3种数据集,目前支持数据集有:MNIST、fashionMNIST、CIFAR10等,并给用户提供一个详细的帮助文档。 目录 基本介…

协作文档的核心逻辑:秩序性如何赋能团队?

协作文档:秩序性的数字化创新 在当今高速发展的信息化社会中,协作文档已经成为团队合作和企业运作的重要工具。协作文档不仅提供了便捷的协作环境,更为高效的任务管理和知识共享带来了全新的可能。然而,真正出色的协作文档不只是一个工具,它更是一种体现秩序性的管理理念。…

macOS Sonoma 14.7.2 (23H311) 正式版 ISO、IPSW、PKG 下载

macOS Sonoma 14.7.2 (23H311) 正式版 ISO、IPSW、PKG 下载macOS Sonoma 14.7.2 (23H311) 正式版 ISO、IPSW、PKG 下载 利用小组件进行个性化设置、令人眼前一亮的全新屏幕保护、Safari 浏览器和视频会议的重大更新 请访问原文链接:https://sysin.org/blog/macOS-Sonoma/ 查看…

前端性能优化实战:从加载到渲染的全链路提速

"网站太慢了,用户都在抱怨!"上周,我接手了一个正在运行的电商项目,首屏加载时间竟然长达 8 秒。作为一个对性能有执念的前端开发者,这个数字让我夜不能寐。经过一周的优化,我们把首屏时间压缩到了 2 秒以内。今天,我想和大家分享这个过程中的实战经验。😊 性…

转载:【AI系统】算子手工优化

在上一篇中,探讨了算子计算和调度的概念,并强调了高效调度策略在释放硬件性能和降低延迟方面的重要性。本文,我们将深入讨论手写算子调度时需要考虑的关键因素,并介绍一些著名的高性能算子库。 计算分析 在优化算子前,首先需要知道当前程序的瓶颈在哪里,是计算瓶颈还是访…

强化学习模型的训练和推理以及成员推断攻击的实现

Reinforcement_learning 2024年9月1日更新 在此教程中,我们将对强化学习模型及其原理进行一个简单的介绍,并实现一种强化学习模型的训练和推理过程,且至少支持3种数据集,目前支持数据集有:MNIST、fashionMNIST、CIFAR10等,并给用户提供一个详细的帮助文档。 目录 基本介绍…

ASE8N65S-ASEMI高压N沟道MOS管ASE8N65S

ASE8N65S-ASEMI高压N沟道MOS管ASE8N65S编辑:ll ASE8N65S-ASEMI高压N沟道MOS管ASE8N65S 型号:ASE8N65S 品牌:ASEMI 封装:TO-220F 最大漏源电流:8A 漏源击穿电压:650V 批号:最新 RDS(ON)Max:1.25Ω 引脚数量:3 沟道类型:N沟道MOS管 芯片尺寸:MIL 漏电流: 恢复时间:…