type
status
date
slug
summary
tags
category
icon
password
1. 参数范数惩罚
“持方枘(数据生成过程)而欲内圆凿(模型族)。”
正则化在深度学习的出现前就已经被使用了数十年。线性模型,如线性回归和逻
辑回归可以使用简单、直接、有效的正则化策略。
许多正则化方法通过对目标函数添加一个参数范数惩罚 Ω,限制模型(如神经网络、线性回归或逻辑回归)的学习能力。我们将正则化后的目标函数记为:
其中 是超参数,用于权衡范数惩罚项 与标准目标函数 的相对贡献。当 为0时,表示没有正则化; 值越大,正则化惩罚的影响越显著。
在神经网络中,参数包括每一层仿射变换的权重和偏置,我们通常只对权重做惩罚而不对偏置做正则惩罚。精确拟合偏置所需的数据通常比拟合权重少得多。每个权重会指定两个变量如何相互作用。我们需要在各种条件下观察这两个变量才能良好地拟合权重。而每个偏置仅仅控制一个单变量。这意味着,我们不对其进行正则化也不会导致太大的方差。
在神经网络的情况下,有时希望对网络的每一层使用单独的惩罚,并分配不同
的系数。寻找合适的多个超参数的代价很大,因此为了减少搜索空间,我们会在
所有层使用相同的权重衰减。
参数正则化
我们可以看到,正则化能让学习算法感知到具有较高方差的输入,因此与输出目标的协方差较小(相对增加方差)的特征的权重将会收缩。