3.4 训练强化学习模型