DeepLearning：参数范数惩罚

type

status

date

slug

summary

1. 参数范数惩罚

“持方枘（数据生成过程）而欲内圆凿（模型族）。”

💡

正则化在深度学习的出现前就已经被使用了数十年。线性模型，如线性回归和逻辑回归可以使用简单、直接、有效的正则化策略。

许多正则化方法通过对目标函数添加一个参数范数惩罚 Ω，限制模型（如神经网络、线性回归或逻辑回归）的学习能力。我们将正则化后的目标函数记为：

其中是超参数，用于权衡范数惩罚项与标准目标函数的相对贡献。当为0时，表示没有正则化；值越大，正则化惩罚的影响越显著。

在神经网络中，参数包括每一层仿射变换的权重和偏置，我们通常只对权重做惩罚而不对偏置做正则惩罚。精确拟合偏置所需的数据通常比拟合权重少得多。每个权重会指定两个变量如何相互作用。我们需要在各种条件下观察这两个变量才能良好地拟合权重。而每个偏置仅仅控制一个单变量。这意味着，我们不对其进行正则化也不会导致太大的方差。

在神经网络的情况下，有时希望对网络的每一层使用单独的惩罚，并分配不同的系数。寻找合适的多个超参数的代价很大，因此为了减少搜索空间，我们会在所有层使用相同的权重衰减。

参数正则化

我们可以看到，正则化能让学习算法感知到具有较高方差的输入，因此与输出目标的协方差较小（相对增加方差）的特征的权重将会收缩。