【正在更新】从零开始认识语音识别:DNN-HMM混合系统语音识别(ASR)原理

摘要 | Abstract

        TO-BE-FILLED

1.前言 | Introduction

        近期想深入了解语音识别(ASR)中隐马尔可夫模型(HMM)和深度神经网络-隐马尔可夫(DNN-HMM)混合模型,但是尽管网络上有许多关于DNN-HMM的介绍,如李宏毅教授的《深度学习人类语言处理》[1],一些博主的语音识别系列文章[2],斯坦福大学HMM课件[3]。但是这些材料要么不够细致完备,要么对初学者来说过于复杂深奥(尤以HMM部分的琳琅满目的概率公式为首)。

        因此,笔者在阅读了大量相关资料后希望用深入浅出的方式为大家系统地介绍DNN-HMM混合模型。本文旨在为零基础者从头解析使用DNN-HMM混合方法的语音识别系统的底层原理

        笔者希望让仅仅具备本科概率论基础的人也能读懂,如果你符合这个条件但仍觉得理解起来困难,你可以留下你的疑惑,以帮助我们改进文章。

        

2.问题描述 | Problem Statement

        我们直入主题,语音识别模型是这样一个模型,它将一串语音信号X(如一个仅包含语音的.wav音频文件)作为模型的输入,目的在于输出一个与之最为匹配的文字内容\hat{Y}(为了简化问题,本文只考虑英文场景,其它语言原理基本类似)。其中,当我们说“最为匹配”的时候,我们主要考虑的是“最有可能”的,亦即,语音识别模型希望在给定X时,给出\hat{Y},使得:

\hat{Y}=argmax_{Y}\{P(Y|X)\}

上式意味着,我们要找使得P(Y|X)最大的Y,记作\hat{Y}
        要解决这个问题,一个最直观的办法就是穷举所有可能的Y,然后比一比他们的概率P(Y|X),再选出最大的那一个。显然这个想法是不现实的,因为所有可能的Y也许是一个无穷的集合。再者,就算能够缩小范围,枚举出大量比较可能的候选Y,又如何比较概率P(Y|X)的大小呢?因而枚举法似乎不是好的选择。

        HMM类的方法则选择使用贝叶斯理论对概率进行处理,这我们在后面会详细说明。在此之前,笔者想为大家简单讲讲其它的更清晰的解决思路。

3.相关研究 | Related Work

        得益于今日神经网络技术的快速发展,熟悉深度学习的我们很容易联想到,似乎只要利用大量的音频以及对应的文本标注进行训练,不需要额外的人工处理应该也能做到很好的泛化能力(即拿到新的语音信号时可以准确地给出真实的文字答案)吧?

        答案是:确实有,这种办法被称为Listen Attend, and Spell,简称LAS[4]。它使用一个深度学习模型,直接用声音信号和人工标记的文字训练,在推理时听到新的声音信号就能给出它认为最匹配的文字内容。由于直接输入音频信号X就能推理出其中的文字\hat{Y},LAS被归为端到端(End to End)模型。

        不得不说,LAS这种方法确实是最符合(机器学习研究者的)直觉的,就像其它任何的机器学习任务(如图像识别)一样,训练和推理再好理解不过了。

        除了即将要介绍的HMM类模型,LAS、Transformer[5],还有CTC[6],RNN-T[7]等。这些内容不是本文的重点,就不一一介绍了。

        尽管LAS等端到端模型操作非常简单无脑,但是在过去的很长一段时间内,这些堪称暴力的方法并没有想象中的那么强。至少在2020年时,商业语音识别系统的主力军还是咱们今天文章的主角DNN-HMM[1],同时DNN-HMM模型也是第一个被宣称达到人类同级别语音识别水平的模型[8]。接下来我们就要展开介绍HMM类模型:GMM-HMM系统和DNN-HMM混合系统。

4.方法 | Method

        前文提到,语音识别的任务可以简化为概率问题——在给定X时,给出\hat{Y},使得:

\hat{Y}=argmax_{Y}\{P(Y|X)\}

由于不好直接求得P(Y|X)以进行比较,在HMM系统中,我们引入贝叶斯公式将上式反转,即作以下变型:

\hat{Y}=argmax_{Y}\{P(Y|X)\}=argmax_{Y}\{\frac{P(X|Y)P(Y)}{P(X)}\}

其中由于去掉分母P(X)不影响分式的大小比较,上式又等价于求:

\hat{Y}=argmax_{Y}\{P(X|Y)P(Y)) \}

       这其中,我们P(X|Y)声学模型(Acoustic Model),称P(Y)语言模型(Language Model)。(对,就是Chat GPT一类的语言模型)

        这样,我们就将不容易估计的概率转变成容易估计的概率。接下来我们简要解释声学模型和语言模型的含义,以及为什么说他们容易估计。

4.1.声学模型与语言模型

        首先是声学模型P(X|Y),按字面意思理解,它就是给定文字内容Y,其对应发音结果为音频X的概率。这个过程是一个正向的过程,是较好估计的。举一个不那么恰当的例子,如在中文里,文字“朝阳”对应的发声结果中,发出类似于“cháo yáng”或者“zhāo yáng”的概率是比较大的,但发出任何其它的声音的概率都是比较小的。笔者认为,这也是该概率被称为“声学模型”的原因,因为它描述的是“念”某一文字发出某一声音的概率,即某文字的“发声概率”。

        以上的例子只是为了简要说明“声学模型”的内涵而并不具有严谨性,对于某一文字内容对应应该发出什么声音,应考虑更全面更深入的因素,而通过拼音的方式进行描述是抽象而模糊的。事实上,HMM正是声学模型,其提出者将文字的发音过程简化作一个隐马尔可夫模型。这部分内容我们会在后文详细介绍,在此不多赘述。

        至于语言模型P(Y),则是用于描述某一文字Y出现的概率,也代表其出现的合理性。如在英文里的经典例子,“识别语音”的英文“recognize speech”和“毁坏一个好沙滩”的英文“wreck a nice beach”的发音应是一模一样的。但是,由于后者的词语搭配缺乏合理性(也可理解为在大量的各类文字材料中后者出现的频率小得多),其概率P(Y)也小得多,故在二者的声学模型取值相同(因为发音完全一样)的情况下,“recognize speech”是具有更高可能的识别结果。在实践中,我们会统计各词语在各种语境(上下文环境)中出现的频率,作为语言模型使用。时常,这样的统计还不足够令人满意,我们也会从逻辑的角度出发对目标材料进行合理扩展。另外,作为评判文字出现合理性的语言模型,成果缔造了Chat GPT这类能生成很多“合理”对话的聊天机器人。由于语言模型不是行文的重点,我们推荐有兴趣的读者查阅语言模型的其它相关材料,不再拓展阐述。

        值得一提的是,即便是对于LAS之类的端到端模型,也即没有使用贝叶斯公式变换出P(Y)这一式子,而是直接求解原问题\hat{Y}=argmax_{Y}\{P(Y|X)\}的模型,也会引入语言模型P(Y),即LAS等模型在实际上会求解\hat{Y}=argmax_{Y}\{P(Y|X)P(Y)\}。尽管这一表达式缺乏逻辑,但在实践中却能起到可观的效果,其原因可能在于这些模型本身不能很好地估计P(Y|X),因而来自语言模型的修正可以生效[1]。

        回到语音识别的问题上来,我们的目标是找到使得声学模型P(X|Y)和语言模型P(Y)相乘概率最大的Y。换一个角度理解:语言模型可以基于声学模型所生成的词组的合理性对语音识别结果进行重打分(rescoring),以帮助改进识别质量。

4.2.声学模型的构建:GMM-HMM系统

        前文已经提到,在搭建声学模型P(X|Y)的过程中,我们引入了HMM模型,其原因在于可以将发声的过程看作是是隐马尔可夫过程。但是在深入分析HMM相关内容之前,为了叙述逻辑的通畅,我们还是先从P(X|Y)这一式子讲起。

4.2.1.对齐:音频分帧与音素分解

        当我们想进一步探讨P(X|Y)这一式子时,一个现实的问题立马扑面而来:对齐。由于语音的随意性和多样性,同一个文本内容会对应无穷多种时间上的差异组合。例如英文里的元音,中文里韵母等,其发音都可以无限地延长。对此,一个很直观的解决方案就是,将音频X切片,分为一小段一小段的内容,再去讨论每一小段对应的内容。

        

TO-BE-CONTINUED

参考资料

[1] 国立台湾大学李宏毅 (Hung-yi Lee)教授DLHLP2020课程,原网址:Hung-yi Lee (ntu.edu.tw) ,B站搬运Speech Recognition (Option) - HMM_哔哩哔哩_bilibili

[2] 【AI大道理】AI大语音(十三)——DNN-HMM (深度解析)-CSDN博客

[3] Stanford University EE365: Hidden Markov Models  hmm.pdf (stanford.edu)

[4] W. Chan, N. Jaitly, Q. Le and O. Vinyals, "Listen, attend and spell: A neural network for large vocabulary conversational speech recognition," 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Shanghai, China, 2016, pp. 4960-4964, doi: 10.1109/ICASSP.2016.7472621.

[5] Linhao Dong, Shuang Xu, and Bo Xu. "Speech-transformer: a no-recurrence sequence-to-sequence model for speech recognition."2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.

[6] Graves, Alex & Fernández, Santiago & Gomez, Faustino & Schmidhuber, Jürgen. (2006). Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural 'networks. ICML 2006 - Proceedings of the 23rd International Conference on Machine Learning. 2006. 369-376. 10.1145/1143844.1143891. 

[7] Graves, Alex. “Sequence Transduction with Recurrent Neural  Networks.”  2012 ArXiv abs/1211.3711

[8] W. Xiong et al., "Toward Human Parity in Conversational Speech Recognition," in IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 25, no. 12, pp. 2410-2423, Dec. 2017, doi: 10.1109/TASLP.2017.2756440. 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/464383.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

速过计算机二级python——第9讲 详解第 2 套真题

第9讲 详解第 2 套真题 基本编程题【15 分】简单应用题【25 分】综合应用题【20 分】**问题 1**【10 分】:**问题 2【10 分】:**基本编程题【15 分】 考生文件夹下存在一个文件 PY101.py,请写代码替换横线,不修改其他代码,实现以下功能:【5 分】题目: import __________ b…

【开源】SpringBoot框架开发考研专业课程管理系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 数据中心模块2.2 考研高校模块2.3 高校教师管理模块2.4 考研专业模块2.5 考研政策模块 三、系统设计3.1 用例设计3.2 数据库设计3.2.1 考研高校表3.2.2 高校教师表3.2.3 考研专业表3.2.4 考研政策表 四、系统展示五、核…

Android---Jetpack Compose学习002

Compose 布局。Compose 布局的目标:1)实现高性能;2)让开发者能够轻松编写自定义布局;3)在 Compose 中,通过避免多次测量布局子级可实现高性能。如果需要进行多次测量,Compose 具有一…

使用UMAP降维可视化RAG嵌入

大型语言模型(LLMs)如 GPT-4 已经展示了出色的文本理解和生成能力。但它们在处理领域特定信息方面面临挑战,比如当查询超出训练数据范围时,它们会产生错误的答案。LLMs 的推理过程也缺乏透明度,使用户难以理解达成结论…

黄金交易策略(Nerve Nnife.mql4):三档移动止盈机制设计

和中国电费一样,一档档的上。 完整EA:Nerve Knife.ex4黄金交易策略_黄金趋势ea-CSDN博客 mql4代码节选如下: //第一张单上涨2500,开始SL跟踪300点if (count 1 && !follow_p_3){double ctp calcTotalProfit(0, "b…

课堂秩序要求有哪些内容

你是否曾经疑惑,为什么有些课堂总是秩序井然,而有些则混乱不堪?作为一位经验丰富的老师,我想告诉你,课堂秩序不仅仅是学生安静听讲那么简单,它背后涉及到许多关键因素,直接影响着教学质量和学习…

2024.2.10 DMS(数据库管理系统)初体验

数据库管理系统(Database Management System)是一种操纵和管理数据库的大型软件,用于建立、使用和维护数据库,简称DBMS。它对数据库进行统一的管理和控制,以保证数据库的安全性和完整性。用户通过DBMS访问数据库中的数据,数据库管…

【书生·浦语大模型实战营】学习笔记1

大模型成为发展通用人工智能的重要途经 专用模型:针对特定任务,一个模型解决一个问题 通用大模型:一个模型应对多种任务、多种模态 书生浦语大模型系列 上海人工智能实验室 轻量级、中量级、重量级 7B 和 123B的轻量级和中量级大模型都是开源…

嵌入式电子产品开发感悟!

​ 2023特别深有感触的有以下几个事件: 1. 早在2月底就提交报告:抓紧开一款便携式的空气波压力按摩仪外壳,包括模具费和100台试产物料费用总计不超过22W,保证最迟在4月中旬全部生产好,以供业务参加5月份开始的大健康展…

linux学习之虚拟地址

在以往的学习中我们经常接触地址,电脑像一个小房间,它的空间是有限不可重叠的,但是可以覆盖。想象一下如果我们要放很多东西进去,如果没有合理的安排,所有东西乱放,那么我们需要寻找某一个东西的时候需要把…

vivado不使用的引脚约束方法

不需要分配的引脚约束方法:收藏备用 方法一: 方法一: set_property SEVERITY {Warning} [get_drc_checks NSTD-1] set_property SEVERITY {Warning} [get_drc_checks RTSTAT-1] set_property SEVERITY {Warning} [get_drc_checks UCIO-1]#方法二 set_p…

宠物空气净化器哪个牌子好?养猫家庭如何挑选宠物空气净化器?

养猫的朋友都知道,猫咪掉毛是一个令人头痛的问题。猫毛和皮屑会漂浮在空气中,不仅遍布全屋的各个角落,而且清理起来也非常麻烦,特别是那些难以清除的猫毛。更糟糕的是,这些猫毛还可能引发人们的过敏反应,如…