sloppy模型/sloppiness

定义

sloppy模型或者sloppiness分析/算法:多参数的模型,其行为只取决于几个参数的严格组合,而参数的其它组合方式对模型预测来说并不重要。

  • Sloppy models are multiparameter models, whose behavior depends only on a few stiff combinations of parameters, with many sloppy parameter directions largely unimportant for model predictions.

起因/观察

许多复杂系统的工作状态似乎不会由于部分参数的改变而发生剧烈的变化(在生命科学、物理学和人工智能等领域中)。

思考

对于复杂系统,能否在宏观层面上用较少的参数来捕捉其主要特征和秩序?

理论基础

用宏观上的低自由度来描述高自由度的复杂系统,即只有少数自由度是关键的。

  • 系统本身受到约束(如物理、几何)
  • 复杂系统在形成过程中必须抵抗噪声,并且为了保持其任务表现的泛化能力,不能对每个参数都过于敏感
  • 复杂系统的演化过程中可能出现路径依赖,一些简单的结构一旦出现,就更容易被选择(例如智能手机形态的“趋同进化”)。

关键

考虑参数空间(参数所构成的空间)与行为空间(变量所构成的空间)的关系

  • 参数决定了行为,但同时进化又反过来通过选择行为确定了一些参数之间的约束
    • 基因学:基因型genotype <–> 表型phenotype
    • 深度学习:训练training <–> 性能/泛化 performance/generalization
  • 一些参数的改变几乎不会影响动力学,称为Sloppy的参数
  • 另外一些参数一旦扰动,动力学将发生巨大改变,敏感性的参数被称为Stiff的参数

描述

  • 为了定量描述参数的稳定性,引入了Fisher信息矩阵,它由参数的二阶导数构成,反映了概率分布的凹凸性
    • 一个分布的凹凸性越大,表明其越不稳定,蕴含的信息量越大
    • Stiff的维度往往远远小于系统的自由度数,这些方向上的扰动将严重影响系统的行为,在相应方向上概率分布函数的投影形状更尖锐,有更小的方差
    • 对于大多数的Sloppy的维度,这些维度上参数的扰动对系统的影响较小,相应方向上概率分布函数的投影更宽扁、更大方差
  • 为了进一步分析参数的分布特性,引入了Gini系数,一个衡量公平性的指标,也可以用来刻画Fisher信息矩阵的稀疏程度
    • Gini系数越大,意味着Stiff参数越少,Sloppy参数越多

现实

从现象倒推参数

  • 常用的方法是最大熵模型。其核心思想是在最大不确定性(亦即最少假设)的前提下估计参数,同时,如果系统本身带有约束,可以通过拉格朗日乘子在数学上引入这些约束。

对比

对比PCA
sloop和PCA对比

参考

https://sethna.lassp.cornell.edu/Sloppy/index.html
https://swarma.org/?p=48938
https://poneill.github.io/sloppy-models-1/
https://www.science.org/doi/10.1126/sciadv.abm5952

  • 19
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值