数据驱动的自相似性发现：解锁复杂物理现象中的标度律

导语

自相似性揭示了复杂系统跨尺度的结构规律，但传统方法依赖理论假设且可能因为假定的模型引入显著的偏差。近期发表在 Physical Review E 的一篇研究提出基于神经网络的数据驱动方法，直接从实验数据中提取自相似参数的幂律关系，为理解复杂现象的自相似性结构提供了一种全新的思路。

集智俱乐部联合合肥工业大学物理系教授李明、同济大学副教授张毅超、北京师范大学特聘副研究员史贵元与在读博士生邱仲普、张章共同发起「复杂网络动力学」读书会。本次读书会将探讨：同步相变的临界性、如何普适地刻画多稳态与临界点、如何识别并预测临界转变、如何通过局部干预来调控系统保持或回到期望稳态、爆炸逾渗临界行为的关键特征、不同类型的级联过程对逾渗相变的影响有何异同、高阶相互作用的影响能否等效为若干简单机制的叠加、如何有效地促进人类个体间的合作等问题。读书会计划从 3 月 7 日开始，每周五晚 19:30-21:30 进行，持续 8-10 周。诚挚邀请领域内研究者、寻求跨领域融合的研究者加入，共同探讨。

研究领域：复杂系统、自相似性、第二类自相似性、数据驱动方法、神经网络、量纲分析、数据崩塌、尺度变换对称性

Ryota Watanabe, Takanori Ishii, Yuji Hirono, Hirokazu Maruoka | 作者

管绍华 | 译者

吴泰霖 | 审校

论文题目：

Data-driven discovery of self-similarity using neural networks

论文地址：

https://journals.aps.org/pre/abstract/10.1103/PhysRevE.111.024301

我们生活的世界充满了复杂的物理现象，但其中却隐藏着一种惊人的秩序——自相似性（Self-Similarity）。它意味着某些物理系统在不同尺度下依然保持相似的结构，比如海岸线的形状、湍流中的旋涡，甚至星系的分布。理解自相似性不仅能够帮助我们揭示物理规律，还能用于预测复杂系统的演化。然而，如何有效地发现这些自相似规律，一直是科学家面临的重要挑战。

来源：quantamagazine | 曼德布罗特集

来自京都大学等单位的研究人员提出了一种基于神经网络的数据驱动方法，能够直接从实验或模拟数据中自动发现隐藏的自相似性，而无需依赖传统的数学推导。他们的研究表明，可以用神经网络拟合自相似方程中的函数关系，并通过网络层数与节点的设置推断自相似参数的幂律形式。研究中以刚性球撞击粘弹性板的实验为例，神经网络从数据中提取出了系统的自相似参数和自相似关系，这不仅验证了 AI for Science 的潜力，也为探索复杂系统的自相似性提供了一种全新的工具。

但要真正理解这种突破的意义，我们需要回到自相似性研究的理论原点。自相似性（Self-Similarity）是物理学和复杂系统研究中的重要概念，意味着物理系统的某些属性在尺度变换下保持不变，揭示了不同尺度之间的普适性 [ 1 ] 。自相似性方程可以表示为

其中 x, y 和 t 是物理参数，标度函数 f 描述两类自相似参数的约束关系。自相似性意味着当发生尺度变换（t → At,x → Apx, y → Aqy）时，两侧的自相似参数不变，上述方程依然成立，即物理量之间存在某种尺度变换下的不变性，因此不同尺度的数据点可以通过构建自相似参数聚集到一个低维流形上，意味着存在数据崩塌（data collapse），这是自相似性的一种典型数据特征。

发现系统自相似结构的关键是从实验和模拟数据中确定自相似参数。传统上，可以通过量纲分析（dimensional analysis）来寻找自相似性，这种方法可以推导第一类自相似解（self-similarity of the first kind），即仅通过物理量的单位关系来确定自相似参数。然而，许多系统的自相似性无法仅通过量纲分析确定，这类非平庸的问题被称为第二类自相似性（self-similarity of the second kind） [ 2,3 ] 。识别非平庸的自相似性等价于发现所研究现象中固有的尺度变换对称性。

目前关于第二类自相似性的研究方法包括非线性特征值方法 [ 2,3 ] 、重整化方法 [ 4 ] 等。然而，这些方法往往依赖于对所涉及物理定律的预先认识，这可能会因假定的模型而引入显著偏差。因此，需要一种更为稳健的方法，能够直接从数据中发现自相似性，而不依赖于预定义的模型。近期发表于 Physical Review E 的这项研究 [ 5 ] ，提出了一种基于神经网络的模型无关方法，直接从数据中挖掘自相似结构。这种无模型依赖的数据驱动方法不仅能够发现物理系统中的尺度变换对称性，而且显著缩小了可能的理论模型范围。

图 1. 自相似性的分类。通过量纲分析获得的自相似性结果被称为第一类自相似性，不能通过量纲分析获得的自相似性结果被称为第二类自相似性。第二类自相似性通过判断指数是否为常数划分为 Type A 和 Type B。论文中主要关注的是指数为常数情况下的自相似性问题（Type A ) 。

1. 自相似参数的层级结构

对于感兴趣的物理系统，我们通常用一系列的物理参数 z 来描述系统的状态，这些参数由数值和单位组成，例如长度、质量、时间等。而由这些物理参数的幂次的乘积可以组合成一系列的无量纲参数 π。相较于物理参数 z，无量纲参数在做单位尺度变换（即对物理量的单位进行缩放）后是不变的，其在不同单位尺度下具有一致性，因此无量纲参数被称为第一类自相似参数。第一类自相似参数通过无量纲化消除了单位变换的影响，从而提供了一种在单位尺度变换下不变的描述。

而单位尺度变换只是一种特殊的尺度变换，更广泛的尺度变换是由一组数值的幂指数乘积组成，无量纲参数无法在其他的尺度变换下保持不变，这时可以引入新的参数 Z，这类参数由无量纲参数的幂指数乘积组成。如果 Z 参数在更广泛的尺度变换操作下依然保持不变，这意味着系统在非平庸的尺度变换下具有自相似性。第二类自相似参数 Z 捕捉了比无量纲参数更深层次的对称性，提供了一种在不同尺度下描述物理系统的最小参数集。

图 2. 自相似参数的层级结构。最底层为物理系统的物理参数 z，这些参数由一个数值和物理单位构成；第一类自相似参数 π 是由物理参数 z 组成的无量纲参数，其在单位尺度变换时保持不变；Z 是由 π 组合而成的第二类自相似参数，其在更广泛的尺度变换下保持不变。I 和 II 分别代表独立参数和非独立参数。

总的来说，物理系统的自相似参数可以形成一种层级结构：（1）从具体的物理参数 z 开始，通过无量纲化得到第一类自相似参数 π，消除单位的影响；（2）进一步通过 π 的幂指数乘积组合构成第二类自相似参数 Z，在更广泛的尺度变换下保持不变。自相似参数的层级结构将物理参数 z、第一类自相似参数 π 和第二类自相似参数 Z 组织起来，每个层次在不同的尺度变换下具有不变性，从而逐步抽象和简化物理系统的分析。

2. 神经网络方法发现自相似性

如前所述，第二类自相似参数 Z 在尺度变换下具有不变性，而 Z 的形式是由无量纲参数以及相应的幂指数确定的，其中无量纲参数可以较容易的从量纲分析中获得，因此发现自相似对称性的难点就在于确定无量纲参数的幂指数。论文中给出了如下的方法步骤去发现自相似参数的幂指数：

搜集不同尺度下的模拟或实验数据，确定主导系统的物理参数 z；

应用量纲分析方法，从物理参数中得到一系列无量纲参数 π；

假设系统存在一种非平庸尺度变换，找到一种理想化区域中的渐近标度律；

通过渐近标度律引入一种自相似参数作为已知参数，其可以由数据计算得到；

引入未知自相似参数，其满足自相似方程；

以不同尺度的数据作为训练数据，以自相似参数作为标签，训练神经网络；

归一化神经网络参数得到幂指数 p，进而确定自相似参数 Z ( p ) 的具体数学形式。

上述方法的关键是如何引入神经网络来优化求解幂指数 p。可以首先将自相似性方程写为，其中向量 p 和 q 是线性无关的。将无量纲参数进行对数变换后有 x=ln π，自相似性方程可以进一步改写为 qx = Φ ( px ) 。至此，改写的方程具有了很好的数学形式，输入是系统的一系列参数 x，在经过 p 向量的线性变换后，再通过函数 Φ 得到另一个已知的自相似参数 Ψ ( q ) =qx。

上述变换过程可以用神经网络表示，神经网络的输入是参数x，其经过第一层权重 w ( 0 ) 的变换后得到节点，此节点表示的是自相似方程中的 px，然后通过若干层的全连接网络后得到一个输出，全连接层神经网络的作用是拟合方程中的函数关系 Φ，因此自相似性方程的神经网络表示为

图 3. 当尺度函数输出为一个参数情况下的神经网络结构图。当输出为多个参数的情况下，需要在网络的第二层增加更多的节点。

神经网络的输入 x 可以通过不同尺度下的数据计算得到，输出是一个已知具体形式的自相似参数 Ψ ( q ) =qx，也可以由数据计算得到，因此这是一类监督学习，可以选择均方误差作为损失函数，。同时还需补充正则项以防参数 w ( 0 ) 过大，引入 λ 2 ( w ( 0 ) · q ) 2 以避免得到的 p 趋于已知的参数 q。对于上述的监督学习，可以通过对不同尺度的实验或者模拟数据进行训练得到参数 w ( 0 ) ，并进行适当的归一化变换后得到幂指数 p，从而发现方程中自相似参数 Z ( p ) 的数学表达形式。

3. 基于模拟和实验数据推断自相似参数

为了验证上述研究方法的有效性，研究中以刚性球撞击粘弹性板实验为例，从实验和模拟数据中推断自相似性。实验通过让不同大小的刚性球以不同的速度撞击一块粘弹性板，观察其最大形变量（凹陷深度），目标是找出形变量如何随其他参数变化，从而揭示其背后的自相似性规律。

研究中首先定义了一组无量纲变量，包括变形量相对于球半径的比值、板厚度与球半径的比值、冲击动能与弹性模量的比值、以及黏性效应的影响因子。自相似性意味着这些无量纲参数组合成新的自相似参数后，存在一个自相似性方程，使得不同尺度下的实验数据通过自相似变量可以 " 折叠 " 到一个统一的曲线上，即所谓的数据崩塌（data collapse）。

图 4. 在球形冲击物（半径为 R、密度为 ρ、冲击速度为 vi）与一个粘弹性板（厚度为 h、弹性模量为 E、粘性系数为 μ）发生碰撞时，各物理参数的几何关系。δ m 表示碰撞后的最大变形。通过构建 4 个无量纲参数作为输入，引入到结构为 4-1-10-10-1 的神经网络模型中。

为了找到自相似参数的具体形式，研究者训练了一个结构为 4-1-10-10-1 的神经网络模型，输入为 4 个无量纲参数，第一层连接的权重代表了自相似参数中无量纲参数的幂指数，输出是实验中获得的自相似性参数。通过模拟和实验数据的训练发现，神经网络在不同的噪声下具有良好的收敛性，由第一层权重归一化后得到的幂指数与理论结果接近。这意味着神经网络能够自动从数据中提取自相似参数中的幂指数，得到其具体数学形式，并能够拟合自相似性方程。所得到的自相似参数能够使所有实验数据塌缩到同一条曲线，验证了该系统的自相似性结构。

研究者进一步将该方法推广到更复杂的情况，比如当一个物理系统的自相似性受多个变量影响时，可以通过在神经网络第二层增加节点以提取多个参数的幂指数。研究中通过随机生成一组数据，并人为设定其自相似结构，然后用神经网络去学习这些结构，并在随后测试了真实的实验数据。结果表明即使物理系统的自相似性结构较为复杂，神经网络方法仍能有效提取幂指数，得到自相似参数的具体形式。

4. 总结

在这项研究中，研究者提出了一种数据驱动的方法，利用神经网络自动发现物理系统中的自相似性，为理解复杂现象提供了一种全新的思路。传统上，科学家主要依靠理论推导和经验公式来识别自相似性关系，例如通过量纲分析、重整化方法等数学工具推导出系统的自相似规律。然而，这种方法要求研究者对系统具有深刻的物理理解，并且可能受到模型假设的限制，难以适用于所有情况。相比之下，神经网络方法不需要预设物理模型，而是直接从实验数据中 " 学习 " 自相似规律，使得这一方法更加灵活、适用范围更广。无论是研究湍流、地震、还是生物系统中的自相似性，这种数据驱动的方式都能提供强大的分析工具，帮助科学家更快、更准确地发现隐藏的物理法则。

同时也给大家推荐一下 22 年一篇发表在 Nature Communications 上的工作《Data-driven discovery of dimensionless numbers and governing laws from scarce measurements》介绍了一种无量纲学习的方法，识别无量纲数与标度律。

参考文献

[ 1 ] N. Goldenfeld, Lectures on Phase Transitions and the Renormalization Group ( CRC Press, Boca Raton, FL, 2018 ) .

[ 2 ] G. I. Barenblatt, Scaling, Self-Similarity, and Intermediate Asymptotics, Cambridge Texts in Applied Mathematics ( Cambridge University Press, Cambridge, UK, 1996 ) .

[ 3 ] G. I. Barenblatt, Scaling, Cambridge Texts in Applied Mathematics ( Cambridge University Press, Cambridge, UK, 2003 ) .

[ 4 ] N. Goldenfeld, O. Martin, and Y. Oono, Intermediate asymptotics and renormalization group theory, J. Sci. Comput. 4, 355 ( 1989 ) .

[ 5 ] R. Watanabe, T. Ishii, Y. Hirono, and H. Maruoka, Data-driven discovery of self-similarity using neural networks, Physical Review E 111, 024301 ( 2025 ) .

复杂网络动力学读书会

读书会计划从 3 月 7 日开始，每周五晚 19:30-21:30 进行，持续 8-10 周。诚挚邀请领域内研究者、寻求跨领域融合的研究者加入，共同探讨。

详情请见：复杂网络上的自组织与集体行为：从扩散、相变到博弈 | 读书会启动

宙世代

一起剪

相关标签