信息不是"内容",而是被消除掉的不确定性。"明天太阳照常升起"几乎是 0 比特;"明天某地发生地震"则携带巨量信息。一件事越可预测,就越没有信息量;越出人意料,越值得被编码和传播。
1948 年 Shannon 提出一个公式,用来衡量一条消息平均有多"出人意料"。当各种结果势均力敌、最难猜时,信息量(熵)最大;当结果完全确定时,熵就是 0。这和物理里的"熵"——系统的混乱程度——其实是同一个东西。
英语有 26 个字母,乍看每个字母要用约 4.7 比特来表示。但因为字母和单词的出现有大量规律(q 后面几乎总跟着 u),真实信息量只有约 1 比特/字母——也就是说英文文本能压缩到原来的四分之一以下。这正是大语言模型能如此精准"接龙"的根本原因:自然语言本质上是高度可压缩的。
在物理里它是系统的混乱程度;在机器学习里是训练时要最小化的"交叉熵损失"——让模型的预测尽量贴近真实;在生态学里用来衡量物种多样性;在认知科学里对应"惊讶度"——有理论认为,大脑就是一台不断降低意外的预测机器。
评估一段 Prompt、一场会议、一份日报,标准变了:不看"说了多少字",而看消除了多少不确定性。"项目进展顺利"信息量几乎为 0;"卡在 X 子任务、缺 Y 资源、预计延期 3 天"才是真正有价值的高信息情报。育儿也一样:"今天怎么样?"几乎必然换来一句低信息的"还行",不如换成具体而难以预测的问题。
▸ 思考题:你最近一周收发的 5 条最长信息里,真正消除了多少不确定性?哪一条字数最少,信息量却最大?相关系数只能看出"两者是否同涨同跌",互信息却能衡量"知道 X 能告诉我多少关于 Y 的信息"——不管两者关系是直线、曲线还是看似杂乱。它是发现隐藏依赖关系的更强工具。
互信息回答一个直觉问题:知道了 Y 之后,X 的不确定性减少了多少?两者完全独立时是 0,一个能完全决定另一个时达到最大。它不挑分布、也不要求关系是一条直线,所以比常用的"相关系数"普适得多。
设 X 在 −1 到 1 之间均匀取值,Y = X²。这两者的相关系数严格等于 0——按相关系数看它们"毫无关系"。但 Y 完全由 X 决定,互信息很高。任何只用相关系数的金融或风险模型,都会漏掉这种关系——2008 年金融危机里,不少风险模型就栽在"零相关并不等于相互独立"上。
在神经科学里用来衡量两个脑区之间真正流动了多少信息;在AI 表征学习里,对比学习(如 CLIP 把图像和文字对齐)的目标就是最大化不同视角之间的互信息;在遗传学里用来识别基因之间的调控关系;在密码学里,"完美保密"的定义就是密文和明文之间的互信息为 0。
诊断团队或项目时,该问"哪个早期信号和最终结果的互信息最高",而不是"哪个指标相关性最高"。常会发现:表面 KPI(如周报字数)几乎没有预测力,而一些被忽视的弱信号(如代码评审里评论的长度、站会沉默的时长)才真正预示交付质量。做 AI 系统挑特征时,用互信息常能挖出意想不到的强预测器。
▸ 思考题:你工作中有没有某个"被忽视的弱信号",它的预测力其实远高于团队当前死盯的核心 KPI?Shannon 证明了一件反直觉的事:在任何有噪声的信道里,只要传输速率不超过某个上限(信道容量),就一定存在某种编码方式,让出错概率趋近于 0。噪声不是不可战胜的命运,而是一种可以用"冗余编码"按比例兑换掉的资源。整个数字文明都建立在这个断言上。
信道容量的公式告诉我们:带宽翻倍,容量也翻倍;但信噪比翻倍,容量只增加一点点——所以 5G 拼命去抢更宽的频谱,而不是单纯加大发射功率。Shannon 当年只证明了"这样的好编码一定存在",却没说怎么造出来;工程师又花了大约 40 年,才真正做出逼近这个理论极限的编码。
深空探测器距离地球上百亿公里,信号传回时比宇宙背景噪声还要弱,按直觉根本没法读取。但靠着精心设计的纠错编码加上极慢的传输速率,它依然能把数据完整送回。这正是容量定理的承诺:噪声再大,只要把速度降下来,就能换回准确——慢,但不出错。
在认知科学里是注意力带宽——眼睛每秒接收的信息远超意识能处理的量,所以"看见"不等于"看进去";在组织沟通里,信息每经过一层级就被重新转述一次、损失一些;在AI里,大模型的上下文窗口就相当于它的信道容量;在生物里,神经突触传递信号本身就是一种在强噪声下的精妙编码。
远程协作的本质,就是管理信道容量。文字消息带宽窄但信噪比高,适合异步处理需要深思的问题;视频会议带宽宽但噪声多,适合建立信任、化解分歧;情绪化的话题往往只有面对面才有足够带宽。用错介质(用文字谈裁员、用视频开例行进度会)就是组织层面的容量浪费。育儿也一样:写张字条、一个拥抱、一次长谈,是三种容量完全不同的渠道。
▸ 思考题:这周你的关键沟通里,有没有"小事用了高带宽介质"或"大事用了低带宽介质"?换一种方式会不会更好?一个东西真正的信息量,等于"能生成它的最短程序"有多长。"看起来随机"并不等于"真的随机":圆周率 π 的前一万亿位看着像乱码,却能用一个几百字符的小程序算出来,所以它的复杂度其实极低。
1960 年代,几位数学家(其中以 Kolmogorov 为代表)各自独立提出:一个对象的复杂度,就是能生成它的最短程序的长度。有意思的是,这个长度无法被算出来(和"停机问题"一样不可解),但它给了"奥卡姆剃刀"——解释越简单越好——一个严格的数学版本。一切学习的终极目标,就是为数据找到最短的解释。
有一条定理说:任何一套数学系统里,都存在大量"随机"的真命题,它们的证明比系统本身还长——于是你永远无法判定它们的真假。换句话说,一个完全随机的东西,没法被任何理论压缩。而科学之所以可能,恰恰因为宇宙远比它"看上去"更可压缩——少数几条简单定律,就能解释海量现象。
在机器学习里,"最好的模型"就是把"模型本身 + 它没解释的误差"加起来、总编码最短的那个;在物理里,E=mc² 之所以伟大,正因为它极短却解释力极强;在生物里,基因组里大量重复片段说明它高度可压缩;在设计里,"少即是多"其实就是同一个道理——越简洁,信号越纯。
判断一个洞察、方案或提案的"真深度",可以问:它能压缩到多短、还能讲清楚?真正深刻的洞察往往一句话就能说透("有外部性时市场会失灵");需要两千字才说明白的,常常是噪声伪装成思想。这条标准对资深技术人尤其残酷:复杂的架构图不等于高价值,能用一张图、一行公式概括的设计才是真功夫。拿它评估自己的写作、演示、汇报:删到不能再删之后,剩下的内核还站得住吗?
▸ 思考题:把你最近最重要的一项工作压缩成一句话。剥掉所有术语和铺垫后,那个"内核"还有力吗?还是说,铺垫本身就是这件事的全部?