香农熵 · Shannon Entropy

"Information is the resolution of uncertainty." — Claude Shannon

熵不是"混乱程度",而是一个概率分布的平均意外度——你对结果越不确定,它的熵越高。香农的公式 H = −Σ p·log p 量化的是:平均而言,揭晓一个结果能消除多少不确定性。单位是 bit,1 bit = 把可能性砍掉一半所需的信息。

非平凡点:① 信息 ≠ 意义。香农刻意剥掉了语义——一次抛硬币和一个生死攸关的决定都可以恰好是 1 bit。熵度量的是"消除了多少不确定",不是"内容多重要"。② 意外度 = −log p:越罕见的事件携带越多信息。"太阳照常升起"几乎零信息,"今天发生日食"信息量巨大。这也解释了为什么新闻天然偏爱小概率事件——高信息量不等于高价值。③ 熵在均匀分布时取最大:你对结果一无所知时,不确定性最高。④ 与热力学熵同构:玻尔兹曼的 S 与香农的 H 是同一个数学对象,这不是巧合——两者都在数"系统能处于多少种等可能的微观状态"。⑤ 与大脑的预测加工同源:感知系统持续预测下一刻的输入,而"惊讶"(预测误差)正是 −log p,大脑无时无刻不在最小化它。

实践判别:判断一条信息有没有价值,问"它把我对某件事的不确定性降低了多少?" 读完一份报告,如果你心里的概率分布纹丝不动 → 这份报告的信息量是零,无论它有多长。

H 最大 = 1 bit p=0 p=0.5 p=1 事件概率 p 熵 H(不确定性)
二元熵:完全可预测(p=0 或 1)时熵为零,最不确定(p=0.5)时熵最大
经典例子

英语文本的冗余。字母分布极不均匀(e 极频繁,z 极罕见),加上拼写与语法规则,英文每个字母的实际信息量只有约 1 bit,远低于 26 个字母均匀分布时的 4.7 bit。这正是你能读懂残缺句子("今天天气很__")的原因——语言天然冗余,而冗余就是抗噪

场景 · BigCat

① 评估会议与资料:开两小时会后,你对决策的概率判断毫无变化 → 这两小时的熵贡献为零,是纯仪式。② AI:大模型的困惑度(perplexity)就是交叉熵的指数——模型对下一个 token 的"平均意外度";困惑度低 = 模型对语言的不确定性小。③ 育儿:孩子说"我不知道"可能恰恰是高熵的诚实信号;逼她给一个低熵的确定答案,反而是在制造假信息。先看清不确定性有多大,再决定要不要急着消除它。


Shannon Entropy — entropy isn't "disorder," it's the average surprise of a probability distribution: the less certain you are about an outcome, the higher its entropy. H = −Σ p·log p measures how much uncertainty is resolved, on average, when the outcome is revealed (in bits). Key: information ≠ meaning — Shannon stripped semantics deliberately. Surprise = −log p, so rare events carry more information. Entropy is maximal under a uniform distribution. It's the same mathematical object as Boltzmann's thermodynamic entropy, and the same quantity the predictive brain minimizes as "surprise." Practical test of any message: by how much did it shrink your uncertainty? If your probability estimate didn't move, its information content was zero.

中文提示词
我要评估 [一份报告/一次会议/一个数据源] 的信息价值。请用香农熵的视角帮我: ① 在接触它之前,我对 [关键问题] 的判断分布大致是什么?接触之后又是什么? ② 据此估计它真正消除了多少不确定性(高/中/零); ③ 如果信息量接近零,指出它是"纯仪式"还是"只在确认已知",并给出一个能带来高信息量的替代来源。
English Prompt
Help me assess the information value of [a report / meeting / data source] through the lens of Shannon entropy: 1. Before encountering it, what was my belief distribution over [the key question]? After? 2. Estimate how much uncertainty it actually removed (high / medium / zero). 3. If the information content is near zero, say whether it's pure ritual or mere confirmation of the known, and propose one higher-information alternative source.

信道容量 · Channel Capacity

香农 1948 含噪信道编码定理——可靠通信可以逼近,但有一道硬墙

任何带噪声的信道都有一个容量上限 C:只要传输速率低于 C,就能通过编码把错误率压到任意低;一旦超过 C,无论多聪明的编码,错误率都消不掉。这是香农最反直觉的定理——在不可靠的信道上实现近乎完美的通信是可能的,但有一道硬墙

非平凡点:① 这是一个锐利的相变,不是平滑退化。低于 C,错误率可以→0;高于 C,错误率被锁死在某个正值之上。工程里很多"还能再压榨一点吗"的问题,答案其实是非黑即白的。② 可靠性是用冗余 + 延迟买来的:要逼近 C 又零错误,编码块必须够长,延迟随之上升。这是通信的根本权衡——你无法同时要高速率、零错误、零延迟。③ 容量公式 C = B·log(1 + S/N) 给出两个旋钮:带宽 B 和信噪比 S/N。但信噪比带来的容量增益是对数级的——靠堆功率(提高 S/N)改善通信,回报递减得极快。④ "信道"可迁移到任何受噪声限制的传输:教学、组织沟通、人机协作,各有各的容量墙。

实践:当沟通反复失败,先分清"是发送的内容有问题,还是信道容量被超了?" 一次会议塞进 10 个决策点 = 远超人类工作记忆这条信道的容量,必然丢包。解法不是说得更大声(提功率),而是降速率(一次只讲一件)或加冗余(换个角度重说一遍)。

C 可压到 ≈0 错误率锁死 传输速率 R → 无法消除的错误率
越过容量 C 是一道锐利的墙:墙内错误率可压到任意低,墙外被锁死
经典例子

旅行者号探测器在数十亿公里外、信号微弱到几乎淹没在噪声里,却仍能传回清晰照片——靠的是纠错编码(给每一位数据裹上精心设计的冗余)。信道糟到极点,但只要速率压在容量之下,照片就能被完整还原。这就是"墙内"的奇迹。

场景 · BigCat

① 教孩子:她的注意力 + 词汇量构成一条窄信道。一口气讲三个新概念 = 超容量,全部丢失。逼近容量的方法是冗余——同一个点用故事、画图、动手三种方式重复,而不是讲得更快。② 人机协作:上下文窗口就是信道,prompt 工程本质上是"信道编码"——把你的意图编成在模型噪声下仍能正确解码的形式。③ 团队:两个团队之间"开会才说话" = 一条低带宽信道(呼应康威定律,D33);硬把大量协作塞过这条窄信道,必然长出厚重的防御性接口。先估容量,再决定塞多少。


Channel Capacity — every noisy channel has a hard ceiling C: transmit below it and coding can drive the error rate arbitrarily low; transmit above it and no code, however clever, can remove the errors. Shannon's most counterintuitive result: near-perfect communication over an unreliable channel is possible — up to a wall. It's a sharp phase transition, not gradual decay. Reliability is bought with redundancy plus latency (longer codes). In C = B·log(1 + S/N), gains from raising signal-to-noise are only logarithmic, so brute-forcing power has fast-diminishing returns. The concept transfers to any noise-limited transport — teaching, org communication, human-AI collaboration. When communication keeps failing, first ask: is the content wrong, or is the channel over capacity?

中文提示词
我在 [某个沟通/教学/协作场景] 里反复失败。请用信道容量的视角诊断: ① 这条"信道"的容量大致由什么限制(注意力/工作记忆/带宽/上下文窗口)? ② 我是不是在超容量发送(一次塞太多)?给出"降速率"和"加冗余"两条具体改法; ③ 我有没有在用"提功率"(说得更大声/更频繁)去解一个容量问题?指出回报为什么递减。
English Prompt
I keep failing at [a communication / teaching / collaboration setting]. Diagnose it via channel capacity: 1. What limits this "channel's" capacity (attention / working memory / bandwidth / context window)? 2. Am I transmitting over capacity (too much at once)? Give one "lower the rate" and one "add redundancy" fix. 3. Am I throwing "more power" (louder / more often) at what is really a capacity problem? Explain why the returns diminish.

编码与压缩 · Coding & Compression

"Compression is comprehension." — 信源编码定理把压缩与理解画上了等号

压缩的本质是剥除冗余:把高频符号编成短码、低频符号编成长码,平均长度就能逼近熵这个理论下界。香农的信源编码定理给出硬底线——无损压缩不可能把信息压得比它的熵更短,纯随机数据根本不可压缩。

非平凡点:① 压缩 = 理解,这是信息论最深的一个等式。一个能把数据压得很短的模型,等于找到了数据里的结构和规律;死记是零压缩(逐字背下来),理解是高压缩(抓住生成规则)。柯尔莫哥洛夫复杂度把这点推到极致:一个对象的复杂度 = 能生成它的最短程序——规律越多,程序越短,越可压缩。② 抽象就是有损压缩:地图、模型、概念都在主动丢弃细节,换取可处理性。关键不是"压不压",而是"丢掉的是不是你不需要的那部分"——这正是好抽象与坏抽象之分(见 D33)。③ 与科学、奥卡姆剃刀同构:好理论 = 对观测的最短编码,用最少假设覆盖最多现象。④ 与学习的泛化同源:模型若只是背下训练集 = 没压缩,必然过拟合;能压缩 = 抓到了可迁移的规律。

实践:检验你是否真懂一样东西,看你能否把它压短而不失真——用一句话讲清它的核心生成规则。压不短,往往说明还没理解,只是在搬运细节。

经典例子

摩尔斯电码早在 1838 年就凭直觉用上了最优编码思想——最高频的字母 E 编成最短的一个点"·",罕见的 Q 编成长串。这与一个世纪后香农信源编码定理"短码给高频符号"的结论完全一致:好的编码,就是让常见的东西更省力。

场景 · BigCat

① 笔记:好笔记不是抄全,而是有损压缩——写摘要的动作逼你去找结构,找不到结构就压不动;压缩失败本身就是"我还没懂"的诚实信号。② AI:大模型本质上是把整个互联网做了一次有损压缩,"理解"在信息论意义上就等同于压缩能力;这也是为什么"会复述"和"会压成一句话"是两种不同的能力。③ 知识体系:读完 50 篇论文后能画出一张地图(少数原理生成多数结论)= 你把这个领域压缩了;若只能逐篇复述 = 还停在零压缩。能压缩,才算真的拥有。


Coding & Compression — compression is the removal of redundancy: short codes for frequent symbols, long codes for rare ones, with average length bounded below by entropy (Shannon's source-coding theorem). Lossless compression can never beat the entropy; truly random data is incompressible. The deep equation: compression = comprehension. A model that compresses data well has found its structure; memorization is zero compression, understanding is high compression. Kolmogorov complexity pushes this to the limit — an object's complexity is the length of the shortest program that generates it. Abstraction is lossy compression (throwing away detail you don't need); science and Occam's razor are the shortest encoding of observations; generalization in learning is compression. Test of real understanding: can you compress it to one sentence without distortion?

中文提示词
我想检验自己是否真懂 [某个概念/领域/系统]。请用"压缩=理解"的框架考我: ① 让我先把它压成一句话的"生成规则",再指出我压掉的是不是真正的冗余、有没有失真; ② 如果我只能罗列细节、压不短,诊断我是卡在"零压缩的记忆"阶段,还是抓错了核心; ③ 给出一个把它压得更短、又不丢关键结构的更优"编码"。
English Prompt
I want to test whether I really understand [a concept / field / system]. Use the "compression = comprehension" frame: 1. Have me compress it to a one-sentence generative rule, then judge whether what I dropped was real redundancy or a distortion. 2. If I can only list details and can't compress, diagnose whether I'm stuck at "zero-compression memorization" or grasping the wrong core. 3. Offer a shorter "encoding" that loses no essential structure.

互信息 · Mutual Information

I(X;Y) — 知道一个变量,能让你对另一个变量的不确定性减少多少

互信息 I(X;Y) 度量知道 X 能让你对 Y 的不确定性减少多少:I(X;Y) = H(Y) − H(Y|X)。它对称、非负,当且仅当 X 与 Y 相互独立时为零。

非平凡点:① 互信息是相关系数的彻底升级版。相关系数只能捕捉线性关系,两个变量可以相关系数为零却高度依赖(如 Y=X²);互信息捕捉任意形式的依赖,是"X 到底含不含 Y 的信息"的终极判据。② 一个信号或指标的价值 = 它与你真正关心的目标之间的互信息。KPI 之所以会失效(古德哈特定律,见 D50),正是因为你优化的代理指标与真实目标之间的互信息被亲手破坏了。③ 信道容量在数学上就是互信息的最大值——这把四个模型缝成了一体:通信、编码、不确定性、依赖,本是同一套语言。④ 与表征学习同源:"信息瓶颈"原理说,好的学习 = 把输入 X 里无关的细节压掉、同时尽量保留与目标 Y 的互信息;大脑与神经网络都在做这件事——构造与"对未来有用的东西"互信息最大的内部表征。

实践:决定要不要采集某个数据、问某个问题、盯某个仪表盘,先问"它和我要决策的事,互信息有多高?" 高互信息 = 看了能改变判断;零互信息 = 再精确也是噪声。多数人收集的"数据",其实与真实决策的互信息接近零。

H(X) H(Y) H(X|Y) H(Y|X) I(X;Y) 互信息 重叠 = 共享的信息;独立时无重叠,互信息为零
互信息 = 两个变量不确定性的重叠部分;它捕捉任意(含非线性)依赖
经典例子

医学检验的价值不在于它多精密,而在于检验结果与真实病情之间的互信息。一个对所有人都报阳性的检测,结果与病情的互信息为零——再"准"也毫无诊断价值。这也是为什么罕见病的筛查要格外当心假阳性:基础率极低时,一次阳性带来的互信息远比直觉想象的小。

场景 · BigCat

① 选指标:盯一个与最终结果互信息低的代理指标(比如"代码行数"之于"软件价值"),越优化越跑偏——这就是古德哈特定律的信息论根源。② 注意力分配:信息过载时代,真正稀缺的不是信息,而是"与你的决策高互信息的信息";过滤的本质,是按互信息给信息排序。③ 提问:一个好问题,是答案与你真正想知道的事互信息最大的那个问题;多数无效沟通,都耗在问互信息接近零的问题上。不是信息越多越好,而是互信息越高越好。


Mutual Information — I(X;Y) = H(Y) − H(Y|X) measures how much knowing X reduces your uncertainty about Y. It's symmetric, non-negative, and zero iff X and Y are independent. It's a strict upgrade over correlation: correlation catches only linear dependence (Y=X² can have zero correlation yet full dependence), while mutual information catches dependence of any form. The value of any signal or metric equals its mutual information with the outcome you actually care about — which is exactly why proxy metrics fail (Goodhart's Law) when you destroy that shared information. Channel capacity is, mathematically, the maximum of mutual information — uniting all four models. The Information Bottleneck frames learning as compressing X while preserving its mutual information with the target Y. Before collecting data or asking a question, ask: how high is its mutual information with what I must decide?

中文提示词
我在用 [某个指标/数据源/问题] 来支撑 [某个决策]。请用互信息的视角审查: ① 这个信号与我真正关心的结果之间,互信息估计是高、中,还是接近零? ② 它有没有"线性相关看着不错、其实依赖很弱"或反之的情况? ③ 若互信息低,指出我是否落入了古德哈特陷阱,并提出一个与目标互信息更高的替代信号。
English Prompt
I'm using [a metric / data source / question] to support [a decision]. Audit it via mutual information: 1. Is this signal's mutual information with the outcome I truly care about high, medium, or near zero? 2. Is there a "looks linearly correlated but barely dependent" mismatch, or the reverse? 3. If it's low, tell me whether I've fallen into a Goodhart trap, and propose a substitute signal with higher mutual information with the goal.