6.3.2 训练Transformer模型