2.4 采用混合高斯分布对语音特征建模
原始语音数据经过短时傅里叶变换形式或者取倒谱后会成为特征序列,在忽略时序信息的条件下,前文讨论的混合高斯分布就非常适合拟合这样的语音特征。也就是说,可以以帧(frame)为单位,用混合高斯模型(GMM)对语音特征进行建模。在本书中,遵从文献[66]中的规范,模型或可计算模型通常指对真实物理过程的数学抽象形式(例如人类语音处理)。为了方便数学上的计算,这些模型往往有一些必要的简化与近似。为了将这种数学抽象和算法应用于计算机及实际的工程应用(例如语音分析与识别)中,这种计算上的易处理性是非常重要的。
不仅仅在语音识别领域,GMM还被广泛用于对其他领域的数据建模并进行统计分类。GMM因其拟合任意复杂的、多种形式的分布能力而广为人知。基于GMM的分类方法被广泛应用于说话人识别、语音特征降噪与语音识别中。在说话人识别中,可以用GMM直接对所有说话人的语音特征分布建模,得到通用背景模型(Universal Background Model,UBM)[67~70]。在语音特征降噪或噪声跟踪中,可以采用类似的做法,用GMM拟合一个先验分布[71-76]。在语音识别中,GMM被整合在HMM中,用来拟合基于状态的输出分布,这部分将在第3章更详细地讨论。
如果把语音顺序信息考虑进去,GMM便不再是一个好模型,因为它不包含任何顺序信息。我们将在第3章讨论一类名叫隐马尔可夫模型(Hidden Markov Model,HMM)的更加通用的模型,它可以对时序信息进行建模。然而,当给定HMM的一个状态后,若要对属于该状态的语音特征向量的概率分布进行建模,则GMM仍不失为一个好的模型。
使用GMM对HMM每个状态的语音特征分布进行建模,有许多明显的优势。只要混合的高斯分布数量足够多,GMM就可以拟合任意精度的概率分布,并且可以通过EM算法很容易地拟合数据。还有很多关于限制GMM复杂度的研究,一方面为了加快GMM的计算速度,另一方面希望能够找到模型复杂度与训练数据量间的最佳权衡,其中包括参数绑定、半绑定GMM与子空间GMM。
通过EM算法的优化,可以使GMM参数在训练数据上生成语音观察特征的概率最大化。在此基础上,若通过鉴别性训练,则基于GMM-HMM的语音识别系统的识别准确率可以得到显著提升。当所使用的鉴别性训练目标函数与音素错误率、字错误率或句子错误率密切相关时,这种提升更加显著。此外,通过在输入语音特征中加入由神经网络生成的联合特征或瓶颈特征,语音识别率同样可以得到提升,我们将在后面的章节讨论这个话题。在过去的很多年间,在语音特征的建模和语音识别中的声学模型的建模中,GMM一直有非常成功的应用(直到2010年至2011年间,深层神经网络取得了更加准确的识别效果)。
尽管GMM有着众多优势,但它也有一个严重的不足。那就是GMM不能有效地对呈非线性或近似非线性的数据进行建模。举例来说,对一系列呈球面的点阵建模,如果选择合适的模型,则只需要很少的参数,但对GMM来讲,却需要非常多的对角高斯分布或相当多的全协方差高斯分布。众所周知,语音是由调节动态系统中相对少的参数来产生的[77-82],这意味着隐藏在语音特征下的真正结构的复杂度,比直接描述现有特征(一个短时傅里叶窗就包含数百个系数)的模型要小得多。因而,我们期待有其他更好的模型,能够更好地捕获语音特性,使其作为语音声学模型的能力比GMM更好。特别是,比起GMM,这种模型要能更加有效地挖掘隐藏在长窗宽语音帧中的信息。
[1]本文忽略了公式更详细的推导,具体可以参见文献[56]。针对更通用模型的公式推导,可以参见文献[57-61]。