人工智能:语音识别理解与实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2 语音识别系统的基本结构

图1-2中展示的是语音识别系统的基本结构,语音识别系统主要由4部分组成:信号处理和特征提取、声学模型(AM)、语言模型(LM)和解码搜索。

图1-2 语音识别系统的基本架构

信号处理和特征提取部分以音频信号为输入,通过消除噪声和信道失真对语音进行增强,将信号从时域转化到频域,并为后面的声学模型提取合适的有代表性的特征向量。声学模型将声学和发音学(Phonetics)的知识进行整合,以特征提取部分生成的特征为输入,并为可变长特征序列生成声学模型分数。语言模型估计通过训练语料(通常是文本形式)学习词之间的相互关系,来估计假设词序列的可能性,又叫语言模型分数。如果了解领域或任务相关的先验知识,则语言模型分数通常可以估计得更准确。解码搜索对给定的特征向量序列和若干假设词序列计算声学模型分数和语言模型分数,将总体输出分数最高的词序列作为识别结果。本书将集中讨论语音识别中的声学模型技术,并在第13章中对深度学习语言模型进行介绍。

关于声学模型,有两个主要问题,分别是特征向量序列的可变长和音频信号的丰富变化性。可变长特征向量序列的问题在学术上通常由动态时间规整(Dynamic Time Warping,DTW)方法和将在第3章描述的隐马尔可夫模型(HMM)[7]方法来解决。音频信号的丰富变化性(variable)是由说话人的各种复杂的特性(如性别、健康状况或紧张程度)交织引起的,或是由说话风格与速度、环境噪声、周围人声(Side Talk)、信道扭曲(Channel Distortion)(如麦克风间的差异)、方言差异、非母语口音(Non-native Accent)引起的。一个成功的语音识别系统必须能够应付所有这类声音的变化因素。

像我们在1.1节中讨论的那样,从特定领域任务向真实应用转变时,会遇到一些困难。如图1-3所示,一个时下实际的语音识别系统需要处理大词汇量(数百万)、自由式对话、带噪声的远场自发语音和多语言混合的问题。

图1-3 从特定领域向真实应用的转变

在过去,最流行的语音识别系统通常使用梅尔倒谱系数(MelFrequency Cepstral Coefficient,MFCC)[8]或者相对频谱变换-感知线性预测(Perceptual Linear Prediction,PLP)[9]作为特征向量,使用混合高斯模型-隐马尔可夫模型(Gaussian mixture model-HMM,GMM-HMM)作为声学模型。20世纪90年代,最大似然准则(Maximum Likelihood,ML)被用来训练这些GMM-HMM声学模型。到了21世纪,序列鉴别性训练算法(Sequence Discriminative Training Algorithm)如最小分类错误(Minimum Classification Error,MCE)[10]和最小音素错误(Minimum Phone Error,MPE)[11]等准则被提了出来,并进一步提高了语音识别的准确率。

近些年,分层鉴别性模型(Discriminative Hierarchical Model)如深层神经网络(Deep Neural Network,DNN)[12]依靠不断增长的计算力、大规模数据集的出现和人们对模型本身更好的理解,变得可行起来,它们显著地减小了错误率。举例来说,上下文相关的深层神经网络-隐马尔可夫模型(Context-Dependent DNN-HMM,CD-DNN-HMM)与传统的使用序列鉴别准则(Sequence Discriminative Criteria)[13]训练的GMM-HMM系统相比,在Switchboard对话任务上错误率降低了三分之一。

在本书中,我们将介绍这些分层鉴别性模型的最新研究进展,包括深层神经网络、卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络(Recurrent Neural Network,RNN)。同时,对于深度学习在先进的语音识别技术框架下的应用,如自适应、鉴别性训练等,以及复杂场景下的语音识别技术,如多语种、环境噪声、远场识别等,也会给予详细介绍。我们将讨论这些模型的理论基础和使系统能够正常工作的实践技巧。由于我们对自己所做的工作比较熟悉,本书主要着眼于我们自己的工作,当然,在需要的时候也会涉及其他研究者的相关研究。