1.6 理解学习率的影响_PyTorch计算机视觉实战：目标检测、图像处理与深度学习-QQ阅读女频古言网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.6 理解学习率的影响

为了理解学习率如何影响模型的训练，考虑一个非常简单的情况，这里我们试图拟合以下等式（注意，以下等式与迄今为止一直在研究的小数据集不同）：

y=3×x

注意，y是输出，x是输入。有了一组输入和期望的输出值，我们将尝试用不同的学习率来拟合方程，以理解学习率的影响。

下列代码可以从本书GitHub存储库（https://tinyurl.com/mcvp-packt）Chapter01文件夹中的Learning_rate.ipynb获得。

1.给定如下输入和输出数据集：

2.定义feed_forward函数。本例将对网络进行进一步修改，使其没有隐藏层，其架构如下：

y=w×x+b

注意，对于上述函数，我们需要估算参数w和b：

3.定义update_weights函数，就像在1.4.1节中定义的一样：

4.初始化权重和偏置项为随机值：

注意，权重和偏置项被随机初始化为0。此外，输入权重值的形状是1×1，因为输入中每个数据点的形状是1×1，偏置项的形状是1×1（由于输出中只有一个节点并且每个输出都只有一个值）。

5.以0.01的学习率利用update_weights函数，循环遍历1000次，并检查权重值（W）如何随着轮数的增加而变化：

注意，在上述代码中，使用0.01的学习率并重复update_weights函数来获取每轮结束时修改的权重。此外，在每轮中，将最近的更新权重作为输入，以在下一轮中获取对权重的更新。

6.绘制每轮结束时权重参数的值：

上述代码导致权重值随轮数的增加而变化，如图1-17所示。

图1-17

需要注意的是，在上述输出中，权重值向右逐渐增加，然后饱和到最优值，约为3。

为了了解学习率的值对获得最优权重值的影响，考察当学习率为0.1和1时，权重值如何随时间的增加而变化。

可以通过在步骤5和步骤6中修改相应的学习率值获得图1-18所示的图表（生成该图表的代码与我们之前的代码相同，只是学习率值发生了变化，可以在GitHub的相关notebook中找到）。

请注意，当学习率非常小（0.01）时，权重值向最优值的移动比较缓慢（超过较大的轮数）。然而，当学习率稍大（0.1）时，权重值先是振荡，然后（以较少的轮数）快速饱和到最优值。最后，当学习率很大（1）时，权重值达到一个非常大的值，无法达到最优值。

图1-18

使用大量小学习率不会导致权重值大幅变化的原因是我们限制了权重更新的数值等于梯度×学习率，小的学习率本质上导致了权重的少量更新。然而，当学习率较大时，权重值的更新量也较大，之后损失的变化（权重值更新量较小时）非常小，使得权重值无法达到最优值。

为了更加深入地理解梯度值、学习率和权重值之间的相互作用，只运行10轮的update_weights函数。此外，将输出以下值，以了解它们如何随着轮数的增加而变化：

❍ 每轮起始时的权重值；

❍ 权重更新之前的损失；

❍ 权重少量更新时的损失；

❍ 梯度值。

修改update_weights函数来输出上面的值，如下所示：

上述代码中以加粗字体突出显示的代码行修改了上一节的update_weights函数，首先，通过检查（i% 2 = = 0）是否作为其他参数对应的偏置项，考察当前是否正在处理权重参数，然后输出原始的权重值（original_weights[i][index]）、损失（org_loss）、更新的损失值（_loss_plus）、梯度（grad）和最终更新的权重值（updated_weights）。

现在讨论在三种不同的学习率中，上述值如何随着轮数的增加而变化：

❍ 0.01的学习率。使用以下代码来检查值：