信息论如何成为复杂系统科学的核心工具

腾讯研究院·2025年12月24日 16:48
面对这些错综复杂的涌现现象,科学家们迫切需要一套强大而普适的数学语言来对其进行描述、量化和理解。

无论是气候变化、流行病传播、金融市场波动,还是大脑的认知功能,这些系统都由大量组件构成,组件间存在多样且动态的互动,因为这些非平凡的互动具有如非线性、涌现、自适应和路径依赖等特征,导致其集体行为往往难以通过还原论预测。面对这些错综复杂的涌现现象,科学家们迫切需要一套强大而普适的数学语言来对其进行描述、量化和理解。

起源于通信的信息论,因其能跨领域量化组件之间,系统与环境,整体与部分的互动,正逐渐成为复杂系统研究领域工具箱中不可或缺的一环。本文旨在对Thomas F. Varley于2025年12月8日发表在《Physics Reports》上的这篇重要综述进行深入解读,系统阐述信息理论为何以及如何成为复杂系统科学的基石,并详解其核心概念、进阶工具与实际应用。

关键词:信息论、熵、互信息、传递熵、整合信息(Φ)、部分信息分解(PID / PED)、O-信息 / Φᵣ、多尺度动力学

 信息理论的基石:核心概念与直觉构建

该文先详细讲解了信息理论的几个核心度量指标,从最基础的概念无疑是熵。据说香农在提出信息论之后,找到冯诺依曼,询问他应该如何称呼新的不确定度量。 

冯·诺依曼回答:“ 你应该称之为熵,因为没人真正知道熵是什么,这样你在辩论中总是占上风。” 

这个故事凸显了一个现实:尽管香农提及熵时最初的关注点狭隘,他所构建的结构却异常笼统,容易产生多种解读。 

1.1 熵:不确定性的量化

想象一个天气预报。如果某地一年365天都是晴天,那么你对“明天天气”的不确定性为零,熵也为零。如果天气晴雨各半,你的不确定性最大,熵也最高。因此,熵衡量的是在得知具体结果之前,我们对一个随机变量取值的“惊讶”程度的期望值。 

图1:信息熵示意图,不同盒子中对应概率不同,对应的熵不同 

对于一个离散随机变量X,其香农熵H(X)的数学定义为H(X) = -Σp(x)logp(x)。其中p(x)是X取值为x的概率。对数底数通常为2,此时熵的单位是比特。 

在神经科学中,一个神经元的放电序列的熵可以衡量其响应的可变性;在生态学中,一个物种分布模式的熵可以反映其空间分布的不确定性;在金融学中,一只股票价格的熵可以表征其波动性。 

1.2  联合熵与条件熵

联合熵H(X,Y)衡量两个随机变量X和Y联合分布的不确定性。它总是大于等于单个变量的熵,但小于等于二者熵之和。条件熵H(Y|X):表示在已知随机变量X取值的情况下,对随机变量Y仍存在的不确定性。如果X和Y完全独立,则H(Y|X) = H(Y);如果Y完全由X决定,则H(Y|X) = 0。 

H(X,Y) = H(X) + H(Y|X)。这直观地表明,X和Y的总不确定性,等于X自身的不确定性,加上已知X后Y剩余的不确定性。 

1.3 互信息:依赖关系的纯粹度量

互信息I(X;Y)是信息理论皇冠上的明珠。它衡量的是,通过观察一个变量,我们能获得关于另一个变量的平均信息量。或者说,它量化了X和Y之间的统计依赖性,其范围从0(完全独立)到min(H(X), H(Y))(完全依赖)。 

I(X;Y) = H(X) + H(Y) - H(X,Y)。 

变量X和Y之间的互信息等于X和Y各自不确定性的和,减去它们的联合不确定性。那部分被“抵消”掉的不确定性,正是由X和Y共享的信息。 

相比常用的只能捕捉变量之间线性关系的皮尔森相关系数,互信息能捕捉任何形式的统计依赖,包括非线性的、非单调的关系。例如,Y = X²的关系,相关系数可能为0,但互信息值会很高。在脑网络中,可以用互信息来连接两个脑区,表示它们活动的同步性;在基因调控网络中,可以连接两个基因,表示其表达水平的协同变化。 

图2:互信息的拆解示意图 

1.4 相对熵 (Kullback-Leibler散度)

相对熵衡量两个概率分布p和q之间的“距离”(严格来 说不是距离,因 为它不对称)。D_KL(p || q)量化了当真实分布为p时,用分布q来近似所造成的信息损失。而互信息I(X;Y) = D_KL( p(x,y) || p(x)p(y) )。 

从上式可看出,互信息衡量的是X和Y的联合分布p(x,y)与它们假设独立时的分布p(x)p(y)之间的“差异”。差异越大,说明它们越不独立,共享信息越多。 

例如两个独立事件分别是投一个正常的骰子和有偏的骰子, 投五次时,两个事件中的相对熵如下的动图所示 

图3:投一个正常的骰子和有偏的骰子五次的相对熵变化 

基础的信息度量 (如互信息) 如同给我们一张复杂系统的静态照片,我们能看出哪些节点之间有连接,但无法知晓信息是如何在这些连接中流动的,也无法理解这些连接背后的深层结构。接下来要介绍的指标,会将这张静态照片升级为一部动态的、可解构的4D电影。 

信息论如何直接描摹复杂系统的动态特征

复杂系统中,信息的传递是动态的、随时间演化的。信息动力学旨在量化信息在系统内部及与环境之间的产生、存储、传递和修改。这其中涉及的使用信息论的指标或例如包括 

2.1 传递熵 (transfer entropy)

传递熵由Thomas Schreiber提出,是互信息在时间序列上的推广。它衡量是,在已知Y自身过去历史的情况下,X的过去历史能为预测Y的当前状态提供多少额外信息,即定向信息流。例如,在神经科学中,传递熵可用于判断是脑区A的活动影响了脑区B,还是反之,从而推断出因果关系的方向,这强于格兰杰因果只是进行非方向的因果量化。 

图4:构造一个简单因果系统:Yt=Xt−2⊕Noise,Yt=Xt−2⊕Noise (X 以 2 步延迟影响 Y)X到Y的转移熵是正的,说明是X影响Y 

2.2 主动信息存储

主动信息存储(AIS)衡量一个系统组成部分的过去历史中,有多少信息与其当前状态相关。这量化了系统内部记忆或信息存储的能力。一个具有高主动信息存储的单元,其行为在很大程度上由其自身的历史决定。   

应用AIS分析混沌时间序列:虽然混沌系统是确定性的,但由于其对初始条件的极端敏感性 (蝴蝶效应) ,其短期历史对预测当前状态非常有价值,但长期历史的预测价值会迅速衰减。因此,当我们设定一个适当的过去窗口长度 (例如,1 0个时间 步) 时, 计算出的 AIS会是一个中等偏高的值。这表明系统在短期内是有“记忆”的。 

在金融市场中,常见的有效市场假说认为,股价的历史信息不能预测未来收益,即收益率序列接近随机游走。如果计算出的AIS值会非常低,接近零。这意味着资产的过去价格对其当前价格几乎没有提供额外的信息,支持了“市场无记忆”的观点。反之,如果发现某只股票的AIS值持续较高,则可能意味着存在可预测的模式,违背了有效市场假说。 

图5:满足与不满足有效市场假说的场景下,对应的主动信息存储值不同 

2.3 整合信息论

整合信息论由神经科学家Giulio Tononi提出,试图度量意识。其核心思想是,一个系统是否具有“意识”程度取决于其各个部分整合信息的程度,如整个系统所产生的信息大于其各部分信息之和的程度,该系统具备意识。考虑一个由百万个光电管组成的都高分辨率数码相机。每个像素都能高保真地记录光信息,整个传感器接收的信息量巨大 (高互信息) 。但是,如果你将传感器切割成两半,每一半仍然能很好地工作。传感器各部分之间几乎没有因果相互作用 (一个像素的状态不影响相邻像素) 。因此,这个系统的整合信息Φ非常低,故而照相机不可能有意识体验。 

而大脑的不同区域以极其复杂的方式相互作用。视觉皮层接收的信息需要与记忆、情感、语言等区域进行整合,才能形成“看到一朵红玫瑰”这样统一、不可分割的体验。如果因为疾病导致大脑不同区域的联系减弱 (裂脑症) ,这种统一的体验就消失了。因此,大脑作为一个整体的信息远超其部分信息之和,其整合信息Φ被认为非常高。整合信息论由此将Φ与意识的程度直接联系起来。 

对于整合信息论,最大的问题在于Φ的计算在实践上对于像大脑这样的系统是极其困难的,因此对该理论,学界存在着巨大的争议。 

图6:对比照相机和大脑在视觉处理上的信息整合程度 

通过分析时间序列的历史数据,将能预测相同未来状态的所有历史归入同一个“因果态”。这是一种对系统动态过程的最优压缩表示。统计复杂性是这些因果态分布的熵。统计复杂性的多少,衡量了为准确预测未来,系统必须记住多少关于过去的信息。 

该指标衡量的是系统为了生成观测到的时间序列,所需要记住的关于其过去的最小信息量。一个具有中等统计复杂性的系统,通常具有丰富的内部结构和动态模式。 

想象你观测一只萤火虫的闪光序列:亮、暗、亮、亮、暗……初看随机,但若某些“历史模式” (如“亮-暗”) 总是预测下一刻“亮”,而另一些 (如“暗-暗”) 总导向“暗”,那么这些历史就应被归为两类——它们虽细节不同,却对未来有相同的预测效力。 

这些具有预测效力的历史,可视为因果态 (c ausal s tate) :即所有能生成相同未来条件分布的历史,被等价归并为一个状态节点。而由这些因果态构成的最小、最简、最优预测器被称为ϵ-机器 (epsilon-machine) 。而无论是统计复杂性的最优压缩,还是ϵ-机器的内在状态结构的不可约性,这两个概念说明了复杂系统之所以复杂,在于其内在状态结构的不可约性。 

图7:因果态示意图:生成一段二元时间序列;用滑动窗口划分历史,对每个历史计算其未来条件分布 ;将具有相同未来分布的历史归为同一因果态节点;绘制 ϵ-机器:因果态为节点,转移概率为边,突出其为最小最优预测器 

信息分解:解开信息的协同与冗余

传统互信息I(X;Y)告诉了我们X和Y共享了多少信息。但如果考虑第三个变量S(例如,一个环境刺激或一个共同驱动因素),问题就变得复杂了:X和Y所共享的信息,有多少是冗余的 (例如,都反映了S的信息) ?有多少是协同的 (例如,只有当X和Y同时被观测时,才能获得关于S的独特信息) ? 

部分信息分解(PID partial information decomposition)旨在将I(S; X,Y)由X和Y决定的关于目标S的总信息分解为四个部分: 

1 冗余信息(Redundancy):由X和Y各自单独提供的、关于S的相同信息。 

2 特有信息(Unique):仅由X提供的关于S的信息。 

3 特有信息(Unique):仅由Y提供的关于S的信息。 

4 协同信息(Synergy):只有当X和Y被同时考虑时,才能提供的关于S的信息。 

I(X1,X2;Y)=Red(X1,X2→Y)+X₁ Unq(X1→Y∣X2)+X₂  Unq(X2→Y∣X1)+ Syn( X1,X2→Y) 

当源数 N>2,部分信息分解迅速复杂化。Williams & Beer 引入冗余格(Redundancy Lattice)——一个偏序集,枚举所有信息分配的可能“原子”。 

图8:两种最简单系统的冗余晶格示例。 左: 两个源  的冗余晶格,并与单一靶点产生突触。右: 三个源的冗余晶格在单一靶点产生突触。三元格点清楚地表明,随着源数量的增加,随着更复杂的来源组合贡献关于目标的信息,“冗余”、“特有信息”和“协同”之间的清晰界限会逐渐消失。在动态过程的背景下,协同效应可以被看作是两股信息流在单一元素 上相互作用产生的“新颖”信息 

在神经科学中,使用PID可以研究一组神经元是如何冗余地编码一个刺激以提高鲁棒性,又是如何协同地编码更复杂的特征。这有助于理解神经群体编码的原理。 

PID还为从数据中重建网络结构推断提供了工具,通过计算所有可能变量对之间的互信息或传递熵,可以构建一个加权的、完全连通的图。然后通过适当的阈值化或统计检验 (如置换检验) ,可以推断出网络中哪些连接是显著的。该方法能够发现非线性相互作用,且对数据的分布假设要求较低。 

PED (Partial Entropy Decomposition)  是 PID 的自然推广,不同于 PID 对互信息 I(X1,…,XN;Y) 的分解 (需指定“sources”与“target”) ,PED 直接分解联合熵H(X1,…,XN),无需区分输入与输出 

图9:两输入 X1,X2; 输出 Y=X1⊕X2(XOR 异或) ,PID 累积的收敛过程及同步显示 PED 视角 

从成对关系到信息网络

网络是复杂系统建模的通用语言:从脑网络、金融系统、生态食物网到社交网络,结构化建模几乎都依赖网络表示。网络可按构建方法分为两类,第一类物理网络 ( 如 航空网、白质纤维束) ,其中边对应真实物理连接,结构可直接观测;另一类统计网络中的边对应统计依赖性,需从数据推断,可使用信息论中的互信息等度量刻画变量间不确定性的变化。 

统计网络又可按是否包含方向,分为两类,一是功能链接Functional Connectivity  (FC)  网络,该网络由无向图构成,边权重为变量间的互信息,刻画瞬时共变,例如fMRI 脑功能网络、基因共表达网络、金融相关性网络;二是有效连接Effective Connectivity  (EC)  网络,由有向图构成,边权重为变量之间的转移熵,刻画事件X对事件Y在排除Y自身记忆下,对预测Y的增量预测能力。 

而当系统中存在当协同/冗余时,常规的基于成对相互关系构建的二元网络 (bivariate network) 将无法描述,此时需引入三元协同超边 (hyperedge) 的超图  (hypergraph)  或单纯流形 (Simplicial Complexes) 。 

用信息论刻画复杂系统的整合与分离

复杂系统的核心特征在于其可“整合”或“分离”。整合指的是系统所有元素相互作用并相互影响的动态过程,而分离则指的是系统部分元素参与自身进程,且这些进程不与其他元素共享的动力学特征。以大脑为例:已知特定脑区参与某些过程而不参与其他过程 (不同区域的功能性是分离的) ,然而同时,大脑整合程度足够高,以至于所有不同的局部过程可以整合为一个统一的、具有单一意识的生物体。有研究假设这种整合与分离的平衡对于健康的大脑功能至关重要。 

类似地,在经济领域,成功的公司维持着健康的分离平衡 (各分支部门各自负责其使命) ,同时所有工作都由中央执行办公室进行监督和广泛指导。 在全球政治中,各个国家的内部动态被国家边界、语言和文化所隔离开来,而国家之间的整合则表现为条约、贸易和历史纠葛。 

这种整合与分离的混合本质上是一种多尺度现象,不同尺度往往表现出不同的偏向。考虑一个模块化网络:在每个模块内部,存在高度整合,但每个模块可能仅与其他模块稀疏连接,表明系统范围内的更高尺度分离。据此,可采用上述的信息论度量,来衡量复杂系统中的整合与分离平衡程度。 

例如,1994 年,Tononi、Sporns 与 Edelman 提出 TSE-复杂性 ( To noni-Sporns-Edelman Complexity) ,通过遍历所有可能的子系统划分,检测“部分”与“剩余”之间的互信息分布。若系统全分离 (如独立高斯变量) ,则TSE等于0;若系统全整合 (如同步振子) , 小子系统与剩余高度相关,但大子系统因冗余导致互信息增长缓慢,那么 TSE 仍低;而具有中等特征的系统,如模块化网络(模块内高整合、模块间弱连接),互信息随子系统大小非线性上升,TSE 达峰值,表明系统能够在需要时整合或分离。 

此时可视为系统处于复杂度最高的临界态,系统既非僵化 (全整合) ,也非混乱 (全分离) ,而是处于信息处理能力最强的混沌边缘。由于TSE的计算需枚举所有子集,对包含组件数大于20的系统几乎不可行。实践中常用近似指标描述复杂性 (Description Complexity) 来替代。 

TSE 告诉我们“有多复杂”,却未揭示“复杂在何处”。Rosas 等人提出的 O-信息 (Ω) 与 S-信息 ( Σ) 则进一步分解复杂性的成分。Ω > 0,则系统以冗余主导 , 信息存有多份备份 (如基因组重复、工程冗余设计) ,对应系统的稳健性高,适应性低;Ω < 0,则系统以协同主导 ,信息仅存于全局模式中 ( 如神 经群体编码) ,对应系统灵活性高,脆弱性高;S信息Σ则反映总依赖密度,高 Σ 表示节点深度嵌入网络 (如枢纽脑区) 。 

O信息的计算,可针对局部网络,据此可预测何时脑状态高度冗余(如稳态睡眠)?何时突发协同 ( 如 顿 悟时刻) ?而无论是O信息还是局部O信息,上述度量均基于多元互信息的加减法,这意味着它们不是动态的:它们作用于静态概率分布。 

Balduzzi和Tononi提出的集成信息度量 ( measure of integrated information ) Whole-minus-sum complexity试图用一种基于动力学时间演化的整合性度量,旨在捕捉系统“整体大于部分之和”的不可还原性信息结构。集成信息度量将过去作为一个整体,考察对未来产生不可分解的预测力。若该值大于零,说明只有联合考虑所有部分的过去,才能最优预测整体未来;存在不可约的跨变量协同演化。 

ΦR通过从ΦID (整合信息分解) 剔除纯冗余项,用以衡量系统是否真正作为一个统一体计算。实验证明蜂群决策时 Φᵣ 升高;癫痫发作 (全脑同步) 时 Φᵣ 反而下降;细胞自动机 Rule 110 ( 图灵完 备) 的 Φᵣ 显著高于 Rule 30(混沌)或 Rule 90(线性)。由于ΦR是系统“因果不可还原性”的量化指标,可对应弱整合信息理论 (weak IIT) ,即若一个系统声称“统一地计算”,这ΦR需大于0.这不直接等于该系统具有意识,但刻画了“系统作为一个统一体进行信息处理”的程度,可作为人工系统 (如 LLM、机器人) 是否具备“统一认知架构”的可操作检验。 

对于包含多个组件的系统,无法直接计算ΦR,可通过最小信息分割 (Minimum Information Bipartition, MIB) ,遍历所有二分划分。对每个划分计算ΦR再取最小值。该值反映系统最脆弱的整合环节,是整体整合能力的下界。 

使用信息论的实际困难

在论述了信息论在复杂系统中的种种应用后,该文接下来指出实际应用时需从有限数据中估计概率分布与信息量。估计偏差不仅影响数值精度,更会系统性扭曲高阶结构推断。 

离散情况下的插件估计 (plug-in) 存在系统偏倚,会导致熵被低估,而互信息被高估;对此的应对方法是Miller–Madow 校正、置换 null 模型、贝叶斯估计器。连续数据更复杂,主流方法三类:粗粒化 (Coarse-graining) 的直方图分箱:易用但 bias/信息损失严重,已不推荐;点过程 (Point process) 仅保留显著事件 (如 fMRI 极值) ,需阈值选择;序数嵌入 (Ordinal partition) :将时间序列映射为排列模式,保留时序结构 (如 permutation entropy) 。 

在连续数据计算信息论估计量时,参数法 (Gaussian estimators) 仅捕获线性依赖,丢失非线性协同/冗余。非参数密度法 ( K NN-based) Kozachenko–Leonenko (熵) 、Kraskov–Stögbauer–Grassberger  (KSG)(互信息) 等基于 k-近邻距离,无需假设分布,支持局部信息量估计;可扩展至条件互信息、PID 局部项。 

原文的第八部分是用于计算的四个常用开源包,例如DIT,可用于PID的高阶信息分解。由于篇幅原因,这里不展开介绍。第九部分讨论信息论应用面临的局限,主要是信息论衡量的有向指标不代表因果关系,而依赖先验知识提供的因果图假设,多个不同因果图可产生相同信息结构。 

此外,使用信息论研究复杂系统,还需要注意语言隐喻 ( “ 信息流”“存储”) 易被误读为物理实体,而事实上信息论是关于不确定性中推理的数学,它描述的是我们如何减少不确定性,而非世界自身的属性。信息总是相对于观察者模型 (observer-dependent) ,无绝对“系统自身的信息”。 

未来方向与总结

在包含数千个特征和数千万个样本的大数据时代,需要新的方法来学习元素组之间的信息依赖关系。除了规模巨大之外,现实世界的数据集还可能包含离散和连续特征的混合,这进一步增加了互信息估计的复杂性,并且通常不能假设其遵循给定的参数分布。神经信息估计器使用神经网络来估计上述的信息论指标,代表了一种在复杂性科学中尚未得到充分探索的新方法。其中最著名的是 MINE  (Mutual Information Neural Estimation) 。 

在机器学习中,信息论提供了一套实用工具,用于实现另一个目标 (学习的高效算法) 。相比之下,在复杂系统中,信息论度量是描述某些系统结构的描述性统计量,并且本身可以是一个最终目标。用 Φᵣ、O-信息等引导进化算法 ( 如机 器 人行 为涌现) ,即通过信息量作为目标函数也是复杂系统与信息论结合的未来研究方向。 

总结来看,从香农熵到 ΦID/PED,信息理论提供了统一语言,刻画从预测、整合到涌现的多尺度过程,最终理解复杂系统如何在不确定性中进行推理的动力学。通过信息论,我们能够知道系统的哪部分在记忆,哪些信息是共享的、独有的、还是协同涌现的,整体是否真的大于部分之和。信息论提供的不同度量是理解复杂系统结构和动态的自然工具,这些系统可能富含高阶冗余、协同作用和计算过程,这些特征的外在表现为不同尺度上的不确定性降低。

文章题目:Information theory for complex systems scientists: What, why, and how

文章链接:https://www.sciencedirect.com/science/article/pii/S037015732500256X

发表时间:2025年12月8日

文章来源:Physics Reports

本文来自微信公众号“腾讯研究院”,作者:郭瑞东,36氪经授权发布。

+1
10

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

「处置长达两小时,可能在应急处置流程、故障感知和切换机制上存在短板」

2小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业