通过与 Jira 对比,让您更全面了解 PingCode

  • 首页
  • 需求与产品管理
  • 项目管理
  • 测试与缺陷管理
  • 知识管理
  • 效能度量
        • 更多产品

          客户为中心的产品管理工具

          专业的软件研发项目管理工具

          简单易用的团队知识库管理

          可量化的研发效能度量工具

          测试用例维护与计划执行

          以团队为中心的协作沟通

          研发工作流自动化工具

          账号认证与安全管理工具

          Why PingCode
          为什么选择 PingCode ?

          6000+企业信赖之选,为研发团队降本增效

        • 行业解决方案
          先进制造(即将上线)
        • 解决方案1
        • 解决方案2
  • Jira替代方案

25人以下免费

目录

l1正则和l2正则的区别

l1正则和l2正则的区别是:1. L1减少的是一个常量,L2减少的是权重的固定比例;2. L1使权重稀疏,L2使权重平滑;3. L1优点是能够获得sparse模型,对于large-scale的问题来说这一点很重要,因为可以减少存储空间。

一、l1正则和l2正则的区别

  • L1减少的是一个常量,L2减少的是权重的固定比例
  • L1使权重稀疏,L2使权重平滑。L1减少的是一个常量,L2减少的是权重的固定比例
  • L1优点是能够获得sparse模型,对于large-scale的问题来说这一点很重要,因为可以减少存储空间
  • L2优点是实现简单,能够起到正则化的作用。缺点就是L1的优点:无法获得sparse模型
  •  
  • L1优点是能够获得sparse模型,对于large-scale的问题来说这一点很重要,因为可以减少存储空间
  • L2优点是实现简单,能够起到正则化的作用。缺点就是L1的优点:无法获得sparse模型

L1正则化与稀疏性

事实上,”带正则项”和“带约束条件”是等价的。

为了约束w的可能取值空间从而防止过拟合,我们为该优异化问题加上一个约束,就是w的L1范数不能大于m:

{min∑Ni=1(wTxi−yi)2s.t.∥w∥1⩽m………(3)

问题转化成了带约束条件的凸优化问题,写出拉格朗日函数:

∑i=1N(wTxi−yi)2+λ(∥w∥1−m)……..(4)

设W∗和λ∗是原问题的优异解,则根据KKT条件得:

{0=∇w[∑Ni=1(WT∗xi−yi)2+λ∗(∥w∥1−m)]0⩽λ∗………(5)

仔细看上面名列前茅个式子,与公式(1)其实是等价的,等价于(3)式。

设L1正则化损失函数:J=J0+λ∑w|w|,其中J0=∑Ni=1(wTxi−yi)2是原始损失函数,加号后面的一项是L1正则化项,λ是正则化系数。

注意到L1正则化是权值的绝对值之和,J是带有绝对值符号的函数,因此J是不完全可微的。机器学习的任务就是要通过一些方法(比如梯度下降)求出损失函数的最小值。当我们在原始损失函数J0后添加L1正则化项时,相当于对J0做了一个约束。令L=λ∑w|w|,则J=J0+L,此时我们的任务变成在L约束下 出J0取最小值的解。

考虑二维的情况,即只有两个权值w1和w2,此时L=|w1|+|w2|对于梯度下降法,求解J0的过程可以画出等值线,同时L1正则化的函数L也可以在w1、w2的二维平面上画出来。

延伸阅读:

二、L2正则化为什么能防止过拟合

拟合过程中通常都倾向于让权值尽可能小,最后构造一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单,能适应不同的数据集,也在一定程度上避免了过拟合现象。可以设想一下对于一个线性回归方程,若参数很大,那么只要数据偏移一点点,就会对结果造成很大的影响;但如果参数足够小,数据偏移得多一点也不会对结果造成什么影响,专业一点的说法是抗扰动能力强。

以上就是关于l1正则和l2正则的区别的内容希望对大家有帮助。

相关文章