6.3 基于KL距离的隐马尔可夫模型
在DNN-HMM混合系统中,观察概率是满足限制条件的真实概率。然而,我们可以移除这些限制条件,并且将状态的对数似然度替换成其他得分。在基于KL散度的HMM(KL-HMM)[235, 236]中,状态得分通过以下公式计算:
这里,s表示一个状态(例如,一个senone),是观察样本xt属于类别ad的后验概率,D是类别的数量,ys是用来表达状态s的概率分布。理论上,ad可以是任意类别。但实际上,ad一般选择上下文无关的音素或者状态。例如,zt可以是一个用输出神经元表示单音素的DNN的输出。
与混合DNN-HMM系统不同,在KL-HMM中,ys是一个需要对每一个状态进行估计的额外模型参数。在[235, 236]中,ys是在固定zt(也就是固定DNN)的情形下,通过最小化公式(6.14)中定义的平均每帧得分来得到最优化的。
除此之外,反向KL(RKL)距离
或者对称KL(SKL)距离
也可以被用作状态得分。
我们需要注意的是,KL-HMM可以被视为一种特殊的DNN-HMM,它采用ad作为一个DNN中的D维瓶颈层中的隐层神经元,并把DNN的softmax层替换成KL距离。因此,为了公平[3],当比较DNN-HMM混合系统和KL-HMM系统时,DNN-HMM混合系统需要额外增加一层。
除了比DNN-HMM系统更复杂,KL-HMM还有另外两个缺点:第一,KL-HMM模型的参数是在DNN模型之外被独立估计的,而不是像DNN-HMM一样所有的参数都是被联合优化的;第二,在KL-HMM中采用序列鉴别性训练(我们会在第15章中讨论)并不如在DNN-HMM混合系统中那么直观。因此,尽管KL-HMM系统也是一个很有意思的模型,但本书将着重讨论DNN-HMM混合系统。
[1]对理想的分割模型而言,这个时长模型非常粗糙。
[2]HMM 中的独立性假设是需要语言模型权重的原因之一。假设有人通过每5ms而不是每10ms来提取一个特征并使特征数量加倍,那么声学模型的分数数量会加倍,于是语言模型的权重也会加倍。
[3]有一些文章在比较DNN-HMM 系统和KL-HMM 系统时用了不公平的比较方法,在这些文章中得到的结论是有待商榷的。