百万年薪天才少女-CSDN博客

原创【文献阅读】Learning Interpretable Dynamics of Stochastic Complex Systems from Experimental Data

分离式建模：通过三个独立的神经网络模块显式地分离了动态的不同来源。图结构感知：利用消息传递机制自然融入了网络拓扑结构。可解释性：通过两阶段符号回归，从黑箱神经网络中提取出白箱的数学方程。处理随机性：专门设计了扩散模块来建模内在随机性，并通过最大似然训练来避免过拟合。

2025-10-08 20:09:46 639

原创【文献阅读】相依网络中的级联失效临界动力学

相互依赖网络的失效以及类似的雪崩现象，其驱动力源于级联故障。在临界点处，级联过程以临界分支过程的形式开始，即每个失效节点（元素）平均会触发另一个节点的失效。随着节点持续失效，网络脆弱性逐渐加剧，分支因子不断增大。若失效过程在临界阶段未达到终止状态，网络将发生突变性崩溃。本文通过建立该动力学过程与生灭过程之间的类比关系，推导出新的解析结果，并显著优化了数值计算。基于此方法，我们分析了该动力学过程的三个关键特征：崩溃概率、雪崩持续时间以及崩溃前级联平台期的长度。

2025-09-28 22:35:33 292 1

原创【文献阅读】基于机器学习的网络最差鲁棒性可扩展快速评估框架

鲁棒性对于理解、设计和优化网络以及网络修复至关重要，而仿真攻击是当前主流的评估方法。然而，仿真攻击往往耗时甚至难以实施；更关键但长期被忽视的缺陷在于，任何攻击策略仅能提供一种潜在的瓦解范式。核心问题是：在最坏情况下或面临最严峻攻击时，给定系统的鲁棒性极限（称为"最差鲁棒性"）究竟为何？理解系统的最差鲁棒性，对于掌握其可靠性边界、评估防护能力以及确定相关设计与安全维护成本具有决定性意义。为解决这些挑战，我们提出基于知识堆叠思想的"最大破坏攻击"（Most Destruction Attack, MDA）概念。

2025-09-26 21:34:25 298

原创【文献阅读】基于空间金字塔池化卷积神经网络的网络鲁棒性评估综合分析

连通鲁棒性作为网络理解、优化与修复的关键指标，传统上依赖于耗时且往往难以实施的仿真评估。所幸机器学习为此提供了创新解决方案，但以下挑战仍未解决：在更普适的边移除场景中的性能表现、通过攻击曲线而非直接训练来捕捉鲁棒性特征、预测任务的可扩展性以及预测能力的迁移性。本研究通过以下途径应对这些挑战：设计融合空间金字塔池化网络（SPP-net）的卷积神经网络（CNN）模型、改进现有评估指标、重构攻击模式、引入合适的过滤规则，并将鲁棒性数值作为训练数据。

2025-09-26 20:34:58 784

原创【复杂系统for精准医学】Processes at the intracellular scale 细胞内尺度的过程

这次继续阅读这篇文章，挖掘一下里面的引文。——Challenges and opportunities for digital twins in precision medicine from a complex systems perspective 从复杂系统视角看数字孪生在精准医学中的挑战与机遇。

2025-09-24 21:19:04 1005

原创【复杂系统for精准医学】大规模人类行为数据 for 精准医学

如今，我们能够从和中提取与生物医学相关的，包括新的患者分层原则和未知的疾病关联。—— Challenges and opportunities for digital twins in precision medicine from a complex systems perspective 从复杂系统视角看数字孪生在精准医学中的挑战与机遇 DOI：10.1038/s41746-024-01402-3。

2025-09-22 15:16:33 1024 2

原创 Nature Physics综述：“多者异也”在真实世界多层网络中如何体现？

本文系统回顾了多层网络理论在过去十年的重要进展及其在复杂系统研究中的应用。作者指出，多层网络框架能够有效刻画系统间的互依性和多重性关系，揭示单层网络无法观测的新现象，如增强扩散、涌现的介观组织和相变等。文章从数学表示、结构特征、动力学过程到实际应用展开论述，重点探讨了多层网络在生物物理系统（如细胞互作网络、脑网络）、生态系统和社会系统中的建模优势。研究表明，多层网络分析能够更好地理解从分子到社会各尺度系统的结构与功能关系，并为系统干预提供新思路。未来研究需进一步整合多尺度信息流，发展更完善的网络干预理论框架

2025-08-25 19:22:06 613

原创 L1、L2正则化的几何解释

图中用几何方式形象地解释了 Ridge 回归（L2正则化）的原理。可以理解为（w1^2 + w2^2）≤R^2，圆周表示目标函数的约束线，这个圆表示了我们的参数 (w1,w2)可以活动的范围。在图中心的黑点，就是普通线性回归的最小二乘解，也就是“拟合训练数据最好的点”：不是单纯让损失最小，而是让损失和权重大小都要“

2025-08-02 17:11:32 413

原创【数理统计】正态分布和对数正态分布有什么关系

对数正态分布的随机变量XX的对数（自然对数）Y=ln⁡(X)服从正态分布，即：Y∼N(μ,σ2)其概率密度函数（PDF）表达为：2. 推导我们开始定义对数正态分布。给定一个随机变量 XX，如果它的对数 Y=ln⁡(X)Y=ln(X) 服从正态分布，即：Y∼N(μ,σ2)正态分布的概率密度函数为：我们通过对数变换得到 XX 的概率密度函数。由于 Y=ln⁡(X)，我们需要找到 X的概率密度函数。首先，设则 y=ln⁡(x)。然后，我们需要对 x进行求导，得到。

2025-06-30 16:01:06 363

原创 jupyter notebook Kernel Restarting内核崩溃的解决

一直报错Kernel Restarting The kernel for grokking/attention matricx.ipynb appears to have died. It will restart automatically.

2025-06-26 18:11:39 349

原创【Transformer】Transformers without Normalization

在深度学习里，数据就像水流一样，在网络的各层之间流动。但每层网络的参数不一样，处理数据的“口味”也不同。这就会导致一个问题：数据在流经每一层时，分布会发生变化，变得越来越“歪”。这不仅会让网络学习效率变低，还可能导致梯度爆炸或消失，让训练直接“崩掉”。归一化层就像一个“水质净化器”，把每层输出的数据“过滤”一下，调整到合适的分布，让网络训练更稳定、更快。常见的归一化方法有 batch Normalization或Layer Normalization,等等。

2025-06-18 11:26:26 787

原创【机器学习】Teacher-Student框架

【代码】【机器学习】Teacher-Student框架。

2025-06-12 10:39:37 516

原创【文献精读】Explaining grokking through circuit efficiency

当训练处于 𝐷 ≈ 𝐷crit附近时（此时记忆电路 𝐶mem与泛化电路 𝐶gen的效率大致相当），收敛后的最终网络应满足以下两种情形之一：1.完全由最高效的电路构成；2. 𝐶mem与 𝐶gen以近似比例共存。若为第二种情形，我们应观察到：在训练精度接近完美后，测试精度会显著延迟地过渡至中等水平。在实践中展示半顿悟（semi-grokking）的实例存在若干困难。首先，随着数据集规模 $D$的减小，顿悟所需时间呈超指数级增长（Power et al.,2021,图1），而临界数据集规模。

2025-06-03 23:47:26 651

原创【Transformer】Rank Collapse

例如，Dong等人的研究表明，在仅包含注意力层的 Transformer 中，所有Tokens的表征会随着网络深度的增加以双指数速率收敛到同一个单一表征，即深度Rank Collapse。研究指出，宽度Rank Collapse是由注意力矩阵谱中的一个谱隙驱动的，并且它会进一步加剧已知的深度Rank Collapse以及梯度爆炸问题。LayerNorm 在防止Rank Collapse方面扮演着比以往认知更复杂和积极的角色，它不仅可以阻止表征完全塌缩，还能在保持高秩的同时允许各向异性表征的存在。

2025-05-29 11:54:37 335

原创降维方法：PCA，t-SNE, Umap

几篇不错的博客：

2025-05-29 11:10:27 273

原创优化器optimizer及实例化代码

Nesterov动量由Yurii Nesterov在1983年提出，它是一种动量优化方法，通过结合前几步的梯度信息来调整当前的更新。Nesterov动量的主要思想是，利用历史梯度信息来预测当前梯度的方向，从而更有效地进行参数更新。

2025-03-07 21:38:38 718

原创 MCC（Matthews Correlation Coefficient）分数

MCC（Matthews Correlation Coefficient）分数是一种用于评估的指标。它综合考虑了真正例（TP）、假正例（FP）、真负例（TN）和假负例（FN）的数量，能够提供一个更全面的模型评估，尤其是在类别不平衡的情况下。

2025-03-05 15:10:36 665

原创 F1分数，调和平均数

精确率 (Precision): 在所有被模型预测为正类的样本中，实际为正类的比例。其中：TP（True Positives）: 真阳性，正确预测为正类的样本数量。FP（False Positives）: 假阳性，错误预测为正类的样本数量。召回率 (Recall): 在所有实际为正类的样本中，被模型正确预测为正类的比例。其中：FN（False Negatives）: 假阴性，错误预测为负类的样本数量。F1 分数什么是调和平均数?为什么使用调和平均数？

2025-03-05 14:32:06 849

原创【机器学习】训练(Training)、验证(Validation)和测试(Testing)

这种三阶段的划分方法是机器学习中的最佳实践，能够帮助我们建立既能在训练数据上表现良好，又能很好地泛化到新数据的模型。- 这种划分方法有助于评估模型的真实性能，避免过拟合。- 通常使用最大的数据集比例（60-80%的数据）- 这个阶段可能会多次重复，直到找到最优的模型配置。- 这个阶段只进行一次，用来评估最终模型的实际性能。- 使用测试集对最终选定的模型进行评估。- 使用验证集来评估模型的泛化能力。- 防止过拟合，选择最佳的模型配置。- 通常使用 10-20% 的数据。- 通常使用 10-20% 的数据。

2025-02-06 17:40:15 1233

原创【Msys2】

除了常用的开发库和工具之外，MSYS2还提供了许多专门针对Windows平台的库和工具，方便开发人员进行跨平台开发和移植工作。很多人都觉得 Linux 相比于 Windows 而言更适合开发，但由于 Windows 在 PC 上占有量巨大，一些程序即使原本在 Linux 上开发的，最终往往需要部署到 Windows 环境。由于MSYS2拥有比较完整的Linux工具链和库，因此它成为了许多跨平台开发和移植项目的首选工具。在跨平台开发中，宏特别有用，因为它可以帮助我们根据不同的操作系统编写适配的代码。

2025-02-06 17:38:19 265

原创【Orca】Orca - Graphlet 和 Orbit 计数算法

Orca（ORbit Counting Algorithm）是一种用于对网络中的小图进行计数的有效算法

2025-01-08 15:33:34 1126

原创【深度学习】EMA指数移动平均

EMA通过对参数进行平滑处理，使得较新的参数值对应的权重较大，较旧的参数值对应的权重较小。这样可以更好地反映参数的变化趋势，并在模型训练中提供更稳定的更新。下面是一种常见的使用EMA进行参数更新和优化的方法，称为。

2025-01-07 10:31:10 1138

原创【文献精读笔记】Explainability for Large Language Models: A Survey （大语言模型的可解释性综述）（五）

***非斜体正文为原文献内容（也包含笔者的补充），灰色块中是对文章细节的进一步详细解释！五、解释评估（Explanation Evaluation）在前面的章节中，我们介绍了不同的解释技术和它们的用途，但评估它们如何忠实地反映模型的推理过程仍然是一个挑战。我们将评估大致分为两类：传统微调范式的局部解释评估（第5.1节）和提示范式中自然语言CoT解释的评估（第5.2节）。评估的两个关键维度是和。从技术上讲，评估解释包含和。人工评估通过模型依据（model rationales）与人类依据。

2025-01-01 19:11:33 1043

原创【文献精读笔记】Explainability for Large Language Models: A Survey （大语言模型的可解释性综述）（四）

发现在保持或提高T5-XL模型在保留数据集上的性能的同时，可以移除60%。此外，一些研究还深入研究了LLMs生成的。

2025-01-01 14:44:46 1404

原创【文献精读笔记】Explainability for Large Language Models: A Survey （大语言模型的可解释性综述）（三）

从而实现对模型的解释。这种方法通过引入抽象概念，使得模型的解释更加易于人类理解，而不是仅仅依赖于低层次的特征。在潜在空间中的信息也可以被转换成易于理解的解释。一个代表性的框架是。

2024-12-30 21:45:16 1542

原创【文献精读笔记】Explainability for Large Language Models: A Survey （大语言模型的可解释性综述）（二）

方式上存在差异。例如，梯度可以是。

2024-12-30 12:22:48 1092

原创【Transformer】超全详解！

Transformer 与 RNN 不同，可以比较好地并行训练。Transformer 本身是不能利用单词的顺序信息的，因此需要在输入中添加位置 Embedding，否则 Transformer 就是一个词袋模型了。Transformer 的重点是 Self-Attention 结构，其中用到的Q, K, V矩阵通过输出进行线性变换得到。

2024-12-29 15:20:26 1305

原创【Transformer】Feed Forward的理解

是Multi-Head Attention的输出做了之后得数据，然后。

2024-12-29 13:30:33 1970

原创【Transformer】位置embedding的理解

由于sin是周期函数，因此从纵向来看，如果函数的频率偏大，引起波长偏短，则不同 t 下的位置向量可能出现重合的情况。使 PE 能够适应比训练集里面所有句子更长的句子，假设训练集里面最长的句子是有 20 个单词，突然来了一个长度为 21 的句子，则使用公式计算的方法可以计算出第 21 位的 Embedding。直观思考，要想给输入的向量添加位置信息, 最先想到的无疑就是直接使用1 , 2 , 3 , . . . , n 这样的连续数字给输入向量赋予标号来表达向量的顺序。T表示一个线性变换矩阵。

2024-12-29 00:14:44 925

原创【Transformer】Add & Norm的理解

Add & Norm 层由 Add 和 Norm 两部分组成，其计算公式如下：由图，其中表示 Multi-Head Attention 或者 Feed Forward 的输入，MultiHeadAttention() 和 FeedForward() 表示输出 (输出与输入维度是一样的，所以可以相加)。

2024-12-29 00:10:45 1618

原创【Attention终于搞懂了】注意力机制/自注意力/多头注意力构件详解

什么是attention？即QKV 模型，transformer 是采用的这种建模方式。k 是 question，v 是 answer，Memory 中以（k，v）形式存储需要的上下文，q 是新来的 question。假设输入为 q，看看历史 memory 中 q 和哪个 k 更相似，然后依葫芦画瓢，根据相似 k 对应的 v，合成当前 question 的 answer。

2024-12-27 23:11:45 2552

原创【文献精读笔记】Explainability for Large Language Models: A Survey （大语言模型的可解释性综述）（一）

Explainability for Large Language Models: A Survey （大语言模型的可解释性综述）传统微调范式（Traditional Fine-Tuning Paradigm）部分精读

2024-12-27 18:24:48 1342

原创 GLUE（General Language Understanding Evaluation）

GLUE的论文为：GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language UnderstandingGLUE的官网为：https://gluebenchmark.com/GLUE包含九项NLU任务。自然语言处理（NLP）主要包括自然语言理解（NLU）和自然语言生成（NLG）分别是。可以分为三类，分别是和所有任务都是单句或者句子对，除了STS-B是一个任务。

2024-12-25 01:59:03 1032

原创【微调fine-tuning】为什么要修改最后几层神经网络权值

在预训练模型中，前面的层通常是通用特征提取器，学习到了图像的低级特征，例如边缘和纹理。而最后几层则是针对原始任务的特定分类器，学习到了高级特征，例如物体形状和类别。在Fine-tuning时，我们希望保留预训练模型的通用特征提取能力，只修改最后几层的权值，以适应新的任务。由于新的任务可能与预训练任务有所不同，例如类别数量和类别分布的差异，我们需要调整输出层的结构和参数，以适应新的任务需求。同时，冻结部分层的参数可以加快Fine-tuning的速度，并降低过拟合的风险。上述博客中也有具体的微调代码操作步骤。

2024-12-25 01:22:42 194

空空如也

NetworkXError: The node 206 is not in the graph.