从优化的角度看正则项


关于模型挑选,一般我们不会仅仅考虑经验风险最小化。


经验风险最小化,仅仅保证模型在已知的训练数据上表现良好。如果经验风险最小化,不能带来实际风险最小化,那会导致过拟合。

因此,一般会通过正则项控制模型的复杂程度。模型复杂程度越高,正则项取值越大。


今天主要从优化的角度看正则项R(w), 假设我们仍然在考虑经验风险最小化,但对模型参数w进行一定的约束。如下图,优化限制条件为R(w) <= c。


根据拉格朗日乘子法,可以转化为:


可见,有约束条件的经验风险最小化,与正则化项是等价的。



考察一种简单的R(w)形式:


对于不同的q,约束条件区域如下:


当q=1时为常说的L1正则,当q=2时为L2正则。对于L1/L2正则,如果从约束优化角度去看,相当于寻找约束区域内的最小经验风险。下图(只考虑2个参数的情况,高维情况类似)中曲线为经验风险值的等值线,当等值线与约束区域相切时,找到一个约束区域内的最值。


不同约束函数的区域边界属性不同,会导致不同正则方法有不同的效果。L1正则容易在“角”部相切,得到参数在某些维度为0,容易得到稀疏化的模型(非0参数对应的特征被保留下来)。而,L2正则的约束区域边界平滑,易于求解,但一般不会得到稀疏化模型,各个维度的参数比较均衡。





更多内容

  • 从Trie到Double Array Trie

  • 二元数及其在自动微分中的应用

  • 计算机求导的四种方法

  • 什么是智能?

  • 一个人工智能的乐观预测?


欢迎关注公众号: inkfish-talk

本站公众号
   欢迎关注本站公众号,获取更多程序园信息
开发小院