← Hub
Day 2 · 2026.05.22

概率与不确定性

Probability & Uncertainty — 如何在看不清的世界里做出更少错误的判断
"The theory of probabilities is at bottom nothing but common sense reduced to calculus." — Pierre-Simon Laplace, Essai philosophique sur les probabilités (1814)

Bayes 定理:信念如何更新

Bayes' Theorem · 推断 / 概率论
Inference
直觉版

你做了某癌症筛查,结果阳性。这种癌症在你这个年龄段的发病率是 1%。检测灵敏度 90%(有病时 90% 概率测出),特异度也 90%(没病时 90% 概率正常)。你真的患癌的概率是多少?大多数人脱口而出 90%。真实答案约 8.3%

用 1000 个像你一样的人来想:10 个真有病,约 9 个被测出阳性;剩下 990 个健康人里,10% 被误测——99 个假阳。一共 9 + 99 = 108 个阳性结果,真正有病的只有 9 个。$9/108 \approx 8.3\%$。这就是 Bayes 定理在做的事——它把"先验信念"(基础发病率)和"证据"(测试结果)融合成"后验信念"。一行话:新信念 = 旧信念 × 这条证据有多支持它

1000 人 · 自然频率视角 1000 1% 有病 99% 无病 10 有病 990 无病 9 阳 ✓ 1 阴 99 假阳 891 阴 阳性合计 = 9 + 99 = 108 P(有病 | 阳性) = 9 / 108 ≈ 8.3%
$$P(H \mid E) = \frac{P(E \mid H)\, P(H)}{P(E)}$$
为什么美

Bayes 公式把"理性更新"从直觉升级成代数。它说明:忽视先验(base rate neglect)是人类思维最系统的错误之一——Kahneman 用整本《思考,快与慢》在论证这点。在贝叶斯主义者眼中,概率不是世界的属性,而是观察者信念的强度。这是 20 世纪科学哲学最大的分歧之一(频率派 vs 贝叶斯派)。E.T. Jaynes 在《Probability Theory: The Logic of Science》开篇说:"概率论是逻辑学的扩展——把布尔代数从 {真, 假} 扩展到 [0, 1] 上的可信度。"

应用

垃圾邮件过滤(每个词都是证据,更新邮件是否为垃圾的后验);医学诊断(不读基础发病率就解读阳性,几乎必错);AI / 机器学习里的 Bayesian networks、MCMC、变分推断、Bayesian deep learning;法庭推理(辛普森案中辩方故意混淆 $P(\text{凶手} \mid \text{证据})$ 与 $P(\text{证据} \mid \text{凶手})$,被称为检察官谬误 prosecutor's fallacy)。

历史与人物

Thomas Bayes(1701–1761)是英国长老会牧师兼业余数学家,生前没发表这个定理,逝后由朋友 Richard Price 在 1763 年向皇家学会宣读。真正把它推广的是 Pierre-Simon Laplace——他独立重新发现并系统化。但 19 世纪末 R.A. Fisher 等频率派学者把贝叶斯派打入冷宫近一个世纪。直到 1980 年代借助计算机与 MCMC 算法,贝叶斯主义才"复活"为现代统计与 AI 的主流之一。

深入资源

• 3Blue1Brown — 《The medical test paradox》
• E.T. Jaynes — 《Probability Theory: The Logic of Science》(贝叶斯派的"圣经")

English Insight: prior 先验;posterior 后验;likelihood 似然($P(E \mid H)$,注意它不是 $P(H \mid E)$——这是最常被混淆的两件事);base rate neglect 基础率忽视;prosecutor's fallacy 检察官谬误。
思考题:如果一个 AI 分类器始终猜最常见的类别,它的准确率可能很高,但它是好分类器吗?这和"癌症阳性时其实大概率没病"是同一类陷阱吗?为什么"准确率 (accuracy)"在罕见类问题上是个具有误导性的指标?

蒙特卡罗:用随机性破题

Monte Carlo Method · 计算 / 模拟
Computation
直觉版

你想算圆周率 $\pi$,但不会微积分。画一个 $2 \times 2$ 的正方形,内切一个半径 1 的圆——圆面积 $\pi$,正方形面积 4,所以圆/正方形 = $\pi/4$。然后你闭着眼往正方形里随机扔豆子。扔 10 万颗,统计落入圆内的比例,乘 4,就是 $\pi$ 的近似值。

这就是蒙特卡罗:当一个问题难以解析求解,就用随机模拟无数次,让大数定律帮你算出答案。它把不确定性反过来当作工具——你不再被随机性折磨,而是用随机性破题。

圆内 圆外 π ≈ 4 × (圆内 / 总数)
正式定义

要估计 $\mathbb{E}[f(X)]$,独立采样 $X_1, X_2, \ldots, X_n$,用 $\frac{1}{n}\sum_{i=1}^n f(X_i)$ 近似。误差按 $O(1/\sqrt{n})$ 收敛——慢,但与维度无关,这是它的杀手锏。

为什么美

传统数值方法(网格、有限元)在维度 $d$ 上的成本是 $O(N^d)$——3 维还行,30 维就崩。蒙特卡罗的误差只与样本数有关,维数灾难在它眼里不存在。这就是为什么金融衍生品定价(几十维资产)、贝叶斯推断(几百维参数)、AlphaGo 的树搜索(巨大状态空间)都必须用它。最美的是:蒙特卡罗不解题,它绕过问题——这是数学家精神的某种极致:当不能直击,就重新定义战场。

应用

曼哈顿计划:模拟中子在裂变材料中的扩散——蒙特卡罗的诞生场景。金融:期权定价、风险价值 (VaR)。物理:Ising 模型、晶格 QCD。AI:AlphaGo 的 Monte Carlo Tree Search、强化学习中的策略评估。电影 CGI:现代离线渲染的 Path Tracing 本质就是高维空间里的蒙特卡罗积分——皮克斯每一帧都在扔豆子。

历史与人物

1946 年,物理学家 Stanislaw Ulam 在洛斯阿拉莫斯生病期间玩纸牌游戏,思考"赢一局的概率怎么算"。他突然想:与其穷举所有可能,不如直接模拟很多局取频率。他和 John von Neumann 把这个想法用于氢弹中子模拟。Nicholas Metropolis 给它起了"Monte Carlo"这个代号——因为 Ulam 叔叔总在摩纳哥赌场赌钱。1953 年的 Metropolis–Hastings 算法奠定了现代 MCMC 的基础。

深入资源

• 3Blue1Brown — 《But what is the Central Limit Theorem?》
• Christian Robert & George Casella — 《Monte Carlo Statistical Methods

English Insight: Monte Carlo method 通常不译,直接音译;importance sampling 重要性采样;rejection sampling 拒绝采样;MCMC = Markov Chain Monte Carlo;curse of dimensionality 维数灾难。
思考题:扔豆子算 $\pi$,10 万颗才到 2 位精度——看起来很差。但如果你要算一个 30 维球的体积呢?传统网格法需要至少 $10^{30}$ 个格点;蒙特卡罗依然只需要几万个样本。这件事告诉我们关于"高维空间"什么直觉?为什么"高维"在某些意义上对随机方法反而更友好

期望值:随机性的重心

Expected Value · 概率论基础
Expectation
直觉版

掷一颗公平骰子,"期望"得到多少点?答案 3.5。但骰子没有 3.5 这一面——你永远不会单次掷出 3.5。所以"期望值"这个词其实有点误导:它不是"我期望发生什么",而是"如果我玩这个游戏一万次,平均结果是多少"

更好的比喻:把概率分布想成一根铁丝,每个可能结果挂一个小球,重量等于它的概率。期望值就是这根铁丝的重心——你用一根手指托在重心位置,整个分布刚好平衡。这就是为什么数学家有时把期望值叫做 first moment(一阶矩)——和力学里"质量 × 位置"的矩同源。

E[X] · 重心 概率分布
$$\mathbb{E}[X] = \sum_i x_i \cdot P(X = x_i) \quad \text{或} \quad \int x \, f(x)\, dx$$
为什么美

期望最深刻的性质叫线性:$\mathbb{E}[X + Y] = \mathbb{E}[X] + \mathbb{E}[Y]$,即使 $X$ 和 $Y$ 不独立——它们可以完全相关,等式照样成立。这是概率论里少有的"无条件免费"恒等式。无数难题靠这一行救命:随机抽 $n$ 张牌,期望出现多少对子?给每对牌定义一个 0/1 指示变量,逐对求期望,相加——不需要管它们是否独立。这种"先拆成指示变量再求和"的套路在组合概率里几乎无敌。

但期望也有坑:1738 年 Daniel Bernoulli 提出圣彼得堡悖论——一个游戏的数学期望是无穷大,但没人愿意花 1000 块买入。这逼出了效用理论:人在乎的不只是金钱的期望,还有方差与风险厌恶。这是行为经济学的起点。

应用

保险定价:保费 ≈ 期望赔付 + 运营成本 + 利润;Kelly 准则:赌博 / 投资里的最优下注比例;强化学习的 Bellman 方程 $V(s) = \mathbb{E}[r + \gamma V(s')]$ 就是期望的递归;几乎所有"理性决策 = 最大化期望效用"的理论框架,都从这里出发。

历史与人物

1654 年,法国贵族 Chevalier de Méré 向 Pascal 请教一个赌博问题:"两人下注玩到一定分数算赢;中途中断怎么分钱?"Pascal 和 Fermat 通过书信讨论这个 Problem of Points——这段通信被公认为现代概率论的诞生。期望值是他们的核心工具。Christiaan Huygens 1657 年的小书《De Ratiociniis in Ludo Aleae》第一次正式把它写成定义。

深入资源

• Leonard Mlodinow — 《The Drunkard's Walk: How Randomness Rules Our Lives
• Steven Strogatz — 《The Joy of x》"Chances Are" 章

English Insight: expectation / expected value / mean 三者通用;variance 方差,standard deviation 标准差,moment 矩;linearity of expectation 期望的线性——概率题里最常用的杀器之一。
思考题:圣彼得堡赌局:连掷硬币直到第一次反面出现,第 $n$ 次出现反面则赢 $2^n$ 元。数学期望是 $\sum_{n=1}^\infty 2^n \cdot 2^{-n} = \infty$。但你愿意花多少钱买这局?答案大概在 10 到 30 块之间。"无穷大的期望"与"愿付价格"的鸿沟,告诉我们关于"理性"什么?是数学错了,还是"理性"这个概念本身需要重写?

大数定律 vs 小数定律:人类直觉的系统性失败

Law of Large Numbers vs the Law of Small Numbers · 极限定理 / 认知偏差
Limit Theorems
直觉版

大数定律 (LLN):重复一个随机实验足够多次,样本平均一定逼近期望值。掷一枚公平硬币 100 万次,正面比例会非常接近 50%。这看起来废话——但严格证明它需要近代分析学的全部机器。

问题是,人类有个奇怪的认知 bug:我们倾向于相信小样本也已经能代表整体。Kahneman 与 Tversky 1971 年戏称这是「小数定律」(the Law of Small Numbers)。掷 4 次硬币 4 次都正面——很多人会觉得"反面已经欠了一笔账,下次该出反面了"。这是赌徒谬误 (gambler's fallacy)。硬币没有记忆。反过来:篮球手连进 5 球,观众觉得他"手感来了"——这是热手谬误 (hot-hand fallacy)。Gilovich 等 1985 年的研究称这是错觉,但 Miller & Sanjurjo 2018 年重新分析后发现,热手在某些情境下其实真实存在——他们指出原研究本身犯了一个微妙的统计偏差。人类直觉容易翻车,但批评直觉的研究也会翻车。

样本数 n (log 尺度) 样本均值 μ = E[X] 小 n:剧烈波动 大 n:收敛
$$\bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_i \;\xrightarrow{P}\; \mu \quad (n \to \infty)$$
为什么美 + 为什么我们栽跟头

LLN 是连接"概率"和"现实"的桥:没有它,期望值就只是一个空概念。它由 Jacob Bernoulli 在 1713 年遗著《Ars Conjectandi》中首次严格证明。但 LLN 只在 "$n$ 足够大" 时才适用——而人类的"足够"和数学的"足够"差得很远。投资 5 只股票 3 只赚了,不能说明你"会选股";A/B 测试只跑 100 人不能信;流行病学小样本研究随时翻车。统计学的一半工作,就是把"看似有趣的小样本现象"打回原形。

应用 / 反例

金融:基金经理过去 5 年跑赢市场——是技能还是运气?Brinson-Hood-Beebower 论证大多数是运气;幸存者偏差 (survivorship bias) 让我们只看见赢的那群人。医学:新冠早期大量"某药有效"的小样本研究后来几乎全部翻车。AI:模型在 100 个 hold-out 样本上准确率 95%,部署后崩盘——因为分布漂移加上小样本评估方差太大。招聘 / 投资 / 创业判断:用单次面试或单次商业计划 judge 一个人,本质是在拿小样本对抗大数定律。

历史与人物

Jacob Bernoulli(1654–1705)第一次严格证明 LLN,称之为「金科玉律」 (theorema aureum)。他写道:"连最愚钝的人都凭本能知道:观察越多越接近真相。但要把它变成严格数学定理,远比想象的难——我花了二十年。" Kahneman 与 Tversky 1971 年的论文《Belief in the Law of Small Numbers》正式诊断了这种认知偏差,奠定了行为经济学。Nassim Taleb 把它推到极致:在厚尾分布 (fat-tailed) 下,"样本均值"本身就不可靠——黑天鹅事件可以让任何"已知"的均值崩盘。

深入资源

• Daniel Kahneman — 《Thinking, Fast and Slow》第 10 章 "The Law of Small Numbers"
• Nassim Taleb — 《Fooled by Randomness

English Insight: Law of Large Numbers (LLN)Central Limit Theorem (CLT) 中心极限定理;regression to the mean 均值回归;survivorship bias 幸存者偏差;gambler's fallacy / hot-hand fallacystatistical significance 统计显著性;fat-tailed distribution 厚尾分布。
思考题:如果"小样本不可信",为什么《圣经》《史记》《古文献》里那些孤例性的奇闻轶事,依然能塑造一代代人的世界观?是不是人类大脑根本不是为大数定律设计的,而是为"单个故事的代表性"设计的?这对我们今天该相信什么、不该相信什么意味着什么?