上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
5.5 混合预训练
无论是生成性还是鉴别性预训练,都各具缺点。生成性预训练没有和任务特定的目标函数绑定。它有助于减轻过拟合但并不保证有助于鉴别性的模型精细化调整(即BP)。鉴别性预训练直接最小化目标函数(例如交叉熵),然而,如果训练没有规划好,那么低层权重可能向最终目标调整得过多,而没有考虑到接下来添加的隐层。为了缓解这些问题,我们可以采用一种混合预训练方法,对生成性及鉴别性准则进行加权优化[207]。一个典型的混合预训练准则是
JHYB(W, b; S)=JDISC(W, b; S)+αJGEN(W, b; S) (5.39)
其中,α是鉴别性准则JDISC(W, b; S)及生成性准则JGEN(W, b; S)的一个插值权重。对于分类任务,鉴别性准则可以是交叉熵,对于回归任务,鉴别性准则可以是最小均方误差。对于RBM,生成性准则可以是负对数似然度,对于自动编码器,生成性准则可以是重建误差。直观地看,生成性组件扮演了鉴别性组件的一种数据相关的正则化器的作用[208]。很明显,这种混合准则不仅可以用于预训练环节,还可以用于模型精细调整环节,在这种情况下,它被称为HDRBM[208]。
已经证明生成性预训练通常有助于训练深层结构[12, 13, 209, 210]。然而,随着模型加深,鉴别性预训练同样可以表现得很好,甚至比生成性预训练更好[49]。混合预训练则同时优于生成性和鉴别性预训练[207]。我们已经注意到,当训练数据集足够大的时候,预训练就变得没那么重要[49, 211]。然而,即使在这种条件下,预训练可能仍然有助于使训练过程相对于不同的随机数种子更加鲁棒。