人工智能:语音识别理解与实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.3 参数估计

前文讨论的混合高斯分布包含了一系列参数变量。对于多元混合高斯分布的公式(2.8),参数变量包含了Θ={cm, µm, Σm}。参数估计问题又被称为学习问题,目标是根据符合混合高斯分布的数据来确定模型参数的取值。

通常来说,混合高斯模型及其相关的参数变量估计是一个不完整数据的参数估计问题。为了进一步说明这个问题,可假设每个数据点与混合高斯分布中的某个单高斯成分具有一种“所属关系”。一开始,这种所属关系是未知的。那么参数变量估计的任务就是通过“学习”得到这些“所属关系”,进而通过具有所属关系的数据点来估计每个高斯成分的参数。

下面将主要讨论混合高斯分布的参数变量估计问题中的最大似然准则估计方法,而期望最大化(Expectation Maximization,EM)算法就是这一类方法的一个典型代表。EM算法是在给定确定数量的混合分布成分的情况下,估计各个分布参数的最通用的方法。它是一个两阶段的迭代算法:期望计算阶段(E步骤)和最大化阶段(M步骤)。我们将在第3章中基于文献[55]来讨论针对更通用的统计模型的EM算法公式,本节将针对混合高斯分布进行讨论。在此情况下,EM算法得到的参数估计公式为[1]

从E步骤中计算得到的后验概率(又称所属关系可信程度)如下:

这是基于当前迭代轮数(由公式(2.13)中的上标j表示),针对某个高斯成分m,用给定的观察值x(t)计算得到的后验概率,t=1, ..., N(这里N是采样率)。给定这些后验概率值后,每个高斯成分的先验概率、均值和协方差都可以根据公式(2.13)计算,这些公式本质上是整个采样数据的加权平均的均值和协方差。

通过推导可以得出,每个EM迭代并不会减少似然度,而这是其他大部分梯度迭代最大化方法所不具备的属性。其次,EM算法天然地引入了对概率向量的限制条件,以便应对足够大的采样数下的协方差定义和迭代。这是一个重要的优点,因为采用显式条件限制方法将引入额外的计算消耗,用于检查和维持合适的数值,EM算法则不需要。从理论上说,EM算法是一种一阶迭代算法,会缓慢地收敛到固定的解。虽然针对参数值的收敛本身并不快,但是似然度的收敛还是非常快的。而EM算法的另一个缺点是它每次都会达到局部最大值,而且它对参数的初始值很敏感。虽然这些问题可以通过在多个初始值下评估EM算法来解决,但是这将引入额外的计算消耗。另一种比较流行的方法是通过单高斯成分来做初始估计,在每次迭代完成后都将一个高斯成分分割成多份,得到混合高斯模型。

除了前面讨论的优化最大似然准则的EM算法,其他旨在优化鉴别性估计准则的方法也被提出来估计高斯或混合高斯模型的参数。这些方法也可以被用于更一般的统计模型,如高斯隐马尔可夫模型(Gaussian HMM)等[62-65]