2.2 高斯分布和混合高斯随机变量
如果连续型标量随机变量x的概率密度函数是
那么它是服从正态分布或高斯分布的。上式的一个等价标记是
表示随机变量x服从均值为µ、方差为σ2的正态分布。使用精度参数(精度是方差的倒数)代替方差后,高斯分布的概率密度函数也可以写为
很容易证明,对一个高斯随机变量x,期望和方差分别满足E(x)=µ,var(x)=σ2=r−1。
由下面的联合概率密度函数定义的正态随机变量x=(x1, x2, ..., xD)T也称多元或向量值高斯随机变量:
与其等价的表示是。对于多元高斯随机变量,其均值和协方差矩阵可由给出。
高斯分布被广泛应用于包括语音识别在内的很多工程和科学学科中。它的流行不仅来自其具有令人满意的计算特性,而且来自大数定理带来的可以近似很多自然出现的实际问题的能力。
现在我们来讨论一种服从混合高斯模型(Gaussian Mixture Model,GMM)的混合高斯随机变量。一个标量连续随机变量x服从混合高斯分布,如果它的概率密度函数为
其中混合权重为正实数,则其和为1:。
混合高斯分布最明显的性质是它的多模态性质(M>1在公式(2.8)中)不同于高斯分布的单模态性质(M=1)。这使得混合高斯模型足以描述很多显示出多模态性质的物理数据(包括语音数据),单高斯分布则不适合。数据中的多模态性质可能来自多种潜在因素,每个因素都决定分布中一个特定的混合成分。如果因素被识别出来,那么混合分布就可以被分解成由多个因素独立分布组成的集合。
很容易证明,服从混合高斯概率密度函数(公式(2.8))的随机变量x的均值是。不同于单模态的高斯分布,这个简单的统计量并不具有什么信息,除非混合高斯分布中所有成分的均值µm(m=1, ..., M)都很接近。
推广到多变量的多元混合高斯分布,其联合概率密度函数可写为
多元混合高斯分布的应用是提升语音识别系统性能的一个关键因素(在深度学习出现之前)[6, 44, 52, 53]。在多数应用中,根据问题的本质,混合成分的数量M被选择为一个先验值。虽然有多种方法尝试去回避这个寻找“正确”值的困难问题,如文献[54],但主流仍然是直接选取先验值。
在多元混合高斯分布公式(2.8)中,如果变量x的维度D很大(比如40,对于语音识别问题),那么使用全协方差矩阵(非对角)(Σm)将引入大量参数(大约为M×D2个)。为了减少这个数量,可以使用对角协方差矩阵Σm。当M很大时,也可以限制所有的协方差矩阵为相同矩阵,对所有的混合成分m,将参数Σm绑定在一起。另一个使用对角协方差矩阵的优势是极大地降低了混合高斯分布所需的计算量。将全协方差矩阵近似为对角协方差矩阵看似对数据向量使用了各个维度不相关的假设,但其实是一种误导。因为混合高斯模型具有多个高斯成分,虽然每个成分都使用了对角协方差矩阵,但总体上至少可以有效地描述由一个使用全协方差矩阵的单高斯模型所描述的向量维度相关性。