从贝叶斯的角度看正则项


上回(关注inkfish-talk, 查看历史文章《从优化的角度看正则项》)我们从优化的角度讨论了正则项及为什么L1正则能产生稀疏模型。我们再从贝叶斯的角度看看正则项究竟是什么回事。


给定观察数据D, 贝叶斯方法通过最大化后验概率估计参数w。


其中

  • p(D|w)是似然函数(likelihood function): 参数向量w的情况下,观测数据D出现的概率

  • p(w)是参数向量的先验概率(prior)


对于似然函数部分有:
则,对后验概率取对数有:



先验概率分布满足正态分布的时候

代入式子展开可以得到

对比下式


可以看到,似然函数部分对应于损失函数(经验风险),而先验概率部分对应于正则项。L2正则,等价于参数w的先验概率分布满足正态分布


先验概率分布满足拉普拉斯分布的时候

可以得到

L1正则,等价于参数w的先验概率分布满足拉普拉斯分布


拉普拉斯分布是怎样的?

对比拉普拉斯分布和高斯分布,可以看到拉普拉斯分布在0值附近突出;而高斯分布在0值附近分布平缓,两边分布稀疏。对应地,L1正则倾向于产生稀疏模型,L2正则对权值高的参数惩罚重。



从贝叶斯角度,正则项等价于引入参数的先验概率分布。常见的L1/L2正则,分别等价于引入先验信息:参数符合拉普拉斯分布/高斯分布。


更多内容

  • 从优化的角度看正则项

  • 从Trie到Double Array Trie

  • 二元数及其在自动微分中的应用

  • 计算机求导的四种方法

  • 什么是智能?


欢迎关注公众号: inkfish-talk

本站公众号
   欢迎关注本站公众号,获取更多程序园信息
开发小院