Day 2 · 2026.05.22

概率与不确定性

Probability & Uncertainty — 如何在看不清的世界里做出更少错误的判断

"The theory of probabilities is at bottom nothing but common sense reduced to calculus." — Pierre-Simon Laplace, Essai philosophique sur les probabilités (1814)

Bayes 定理：信念如何更新

Bayes' Theorem · 推断 / 概率论

Inference

直觉版

你做了某癌症筛查，结果阳性。这种癌症在你这个年龄段的发病率是 1%。检测灵敏度 90%（有病时 90% 概率测出），特异度也 90%（没病时 90% 概率正常）。你真的患癌的概率是多少？大多数人脱口而出 90%。真实答案约 8.3%。

用 1000 个像你一样的人来想：10 个真有病，约 9 个被测出阳性；剩下 990 个健康人里，10% 被误测——99 个假阳。一共 9 + 99 = 108 个阳性结果，真正有病的只有 9 个。$9/108 \approx 8.3\%$。这就是 Bayes 定理在做的事——它把"先验信念"（基础发病率）和"证据"（测试结果）融合成"后验信念"。一行话：新信念 = 旧信念 × 这条证据有多支持它。

$$P(H \mid E) = \frac{P(E \mid H)\, P(H)}{P(E)}$$

为什么美

Bayes 公式把"理性更新"从直觉升级成代数。它说明：忽视先验（base rate neglect）是人类思维最系统的错误之一——Kahneman 用整本《思考，快与慢》在论证这点。在贝叶斯主义者眼中，概率不是世界的属性，而是观察者信念的强度。这是 20 世纪科学哲学最大的分歧之一（频率派 vs 贝叶斯派）。E.T. Jaynes 在《Probability Theory: The Logic of Science》开篇说："概率论是逻辑学的扩展——把布尔代数从 {真, 假} 扩展到 [0, 1] 上的可信度。"

应用

垃圾邮件过滤（每个词都是证据，更新邮件是否为垃圾的后验）；医学诊断（不读基础发病率就解读阳性，几乎必错）；AI / 机器学习里的 Bayesian networks、MCMC、变分推断、Bayesian deep learning；法庭推理（辛普森案中辩方故意混淆 $P(\text{凶手} \mid \text{证据})$ 与 $P(\text{证据} \mid \text{凶手})$，被称为检察官谬误 prosecutor's fallacy）。

历史与人物

Thomas Bayes（1701–1761）是英国长老会牧师兼业余数学家，生前没发表这个定理，逝后由朋友 Richard Price 在 1763 年向皇家学会宣读。真正把它推广的是 Pierre-Simon Laplace——他独立重新发现并系统化。但 19 世纪末 R.A. Fisher 等频率派学者把贝叶斯派打入冷宫近一个世纪。直到 1980 年代借助计算机与 MCMC 算法，贝叶斯主义才"复活"为现代统计与 AI 的主流之一。

深入资源

• 3Blue1Brown — 《The medical test paradox》
• E.T. Jaynes — 《Probability Theory: The Logic of Science》（贝叶斯派的"圣经"）

English Insight： prior 先验；posterior 后验；likelihood 似然（$P(E \mid H)$，注意它不是 $P(H \mid E)$——这是最常被混淆的两件事）；base rate neglect 基础率忽视；prosecutor's fallacy 检察官谬误。

思考题：如果一个 AI 分类器始终猜最常见的类别，它的准确率可能很高，但它是好分类器吗？这和"癌症阳性时其实大概率没病"是同一类陷阱吗？为什么"准确率 (accuracy)"在罕见类问题上是个具有误导性的指标？

蒙特卡罗：用随机性破题

Monte Carlo Method · 计算 / 模拟

Computation

直觉版

你想算圆周率 $\pi$，但不会微积分。画一个 $2 \times 2$ 的正方形，内切一个半径 1 的圆——圆面积 $\pi$，正方形面积 4，所以圆/正方形 = $\pi/4$。然后你闭着眼往正方形里随机扔豆子。扔 10 万颗，统计落入圆内的比例，乘 4，就是 $\pi$ 的近似值。

这就是蒙特卡罗：当一个问题难以解析求解，就用随机模拟无数次，让大数定律帮你算出答案。它把不确定性反过来当作工具——你不再被随机性折磨，而是用随机性破题。

正式定义

要估计 $\mathbb{E}[f(X)]$，独立采样 $X_1, X_2, \ldots, X_n$，用 $\frac{1}{n}\sum_{i=1}^n f(X_i)$ 近似。误差按 $O(1/\sqrt{n})$ 收敛——慢，但与维度无关，这是它的杀手锏。

为什么美

传统数值方法（网格、有限元）在维度 $d$ 上的成本是 $O(N^d)$——3 维还行，30 维就崩。蒙特卡罗的误差只与样本数有关，维数灾难在它眼里不存在。这就是为什么金融衍生品定价（几十维资产）、贝叶斯推断（几百维参数）、AlphaGo 的树搜索（巨大状态空间）都必须用它。最美的是：蒙特卡罗不解题，它绕过问题——这是数学家精神的某种极致：当不能直击，就重新定义战场。

应用

曼哈顿计划：模拟中子在裂变材料中的扩散——蒙特卡罗的诞生场景。金融：期权定价、风险价值 (VaR)。物理：Ising 模型、晶格 QCD。AI：AlphaGo 的 Monte Carlo Tree Search、强化学习中的策略评估。电影 CGI：现代离线渲染的 Path Tracing 本质就是高维空间里的蒙特卡罗积分——皮克斯每一帧都在扔豆子。

历史与人物

1946 年，物理学家 Stanislaw Ulam 在洛斯阿拉莫斯生病期间玩纸牌游戏，思考"赢一局的概率怎么算"。他突然想：与其穷举所有可能，不如直接模拟很多局取频率。他和 John von Neumann 把这个想法用于氢弹中子模拟。Nicholas Metropolis 给它起了"Monte Carlo"这个代号——因为 Ulam 叔叔总在摩纳哥赌场赌钱。1953 年的 Metropolis–Hastings 算法奠定了现代 MCMC 的基础。

深入资源

• 3Blue1Brown — 《But what is the Central Limit Theorem?》
• Christian Robert & George Casella — 《Monte Carlo Statistical Methods》

English Insight： Monte Carlo method 通常不译，直接音译；importance sampling 重要性采样；rejection sampling 拒绝采样；MCMC = Markov Chain Monte Carlo；curse of dimensionality 维数灾难。

思考题：扔豆子算 $\pi$，10 万颗才到 2 位精度——看起来很差。但如果你要算一个 30 维球的体积呢？传统网格法需要至少 $10^{30}$ 个格点；蒙特卡罗依然只需要几万个样本。这件事告诉我们关于"高维空间"什么直觉？为什么"高维"在某些意义上对随机方法反而更友好？

期望值：随机性的重心

Expected Value · 概率论基础

Expectation

直觉版

掷一颗公平骰子，"期望"得到多少点？答案 3.5。但骰子没有 3.5 这一面——你永远不会单次掷出 3.5。所以"期望值"这个词其实有点误导：它不是"我期望发生什么"，而是"如果我玩这个游戏一万次，平均结果是多少"。

更好的比喻：把概率分布想成一根铁丝，每个可能结果挂一个小球，重量等于它的概率。期望值就是这根铁丝的重心——你用一根手指托在重心位置，整个分布刚好平衡。这就是为什么数学家有时把期望值叫做 first moment（一阶矩）——和力学里"质量 × 位置"的矩同源。

$$\mathbb{E}[X] = \sum_i x_i \cdot P(X = x_i) \quad \text{或} \quad \int x \, f(x)\, dx$$

为什么美

期望最深刻的性质叫线性：$\mathbb{E}[X + Y] = \mathbb{E}[X] + \mathbb{E}[Y]$，即使 $X$ 和 $Y$ 不独立——它们可以完全相关，等式照样成立。这是概率论里少有的"无条件免费"恒等式。无数难题靠这一行救命：随机抽 $n$ 张牌，期望出现多少对子？给每对牌定义一个 0/1 指示变量，逐对求期望，相加——不需要管它们是否独立。这种"先拆成指示变量再求和"的套路在组合概率里几乎无敌。

但期望也有坑：1738 年 Daniel Bernoulli 提出圣彼得堡悖论——一个游戏的数学期望是无穷大，但没人愿意花 1000 块买入。这逼出了效用理论：人在乎的不只是金钱的期望，还有方差与风险厌恶。这是行为经济学的起点。

应用

保险定价：保费 ≈ 期望赔付 + 运营成本 + 利润；Kelly 准则：赌博 / 投资里的最优下注比例；强化学习的 Bellman 方程 $V(s) = \mathbb{E}[r + \gamma V(s')]$ 就是期望的递归；几乎所有"理性决策 = 最大化期望效用"的理论框架，都从这里出发。

历史与人物

1654 年，法国贵族 Chevalier de Méré 向 Pascal 请教一个赌博问题："两人下注玩到一定分数算赢；中途中断怎么分钱？"Pascal 和 Fermat 通过书信讨论这个 Problem of Points——这段通信被公认为现代概率论的诞生。期望值是他们的核心工具。Christiaan Huygens 1657 年的小书《De Ratiociniis in Ludo Aleae》第一次正式把它写成定义。

深入资源

• Leonard Mlodinow — 《The Drunkard's Walk: How Randomness Rules Our Lives》
• Steven Strogatz — 《The Joy of x》"Chances Are" 章

English Insight： expectation / expected value / mean 三者通用；variance 方差，standard deviation 标准差，moment 矩；linearity of expectation 期望的线性——概率题里最常用的杀器之一。

思考题：圣彼得堡赌局：连掷硬币直到第一次反面出现，第 $n$ 次出现反面则赢 $2^n$ 元。数学期望是 $\sum_{n=1}^\infty 2^n \cdot 2^{-n} = \infty$。但你愿意花多少钱买这局？答案大概在 10 到 30 块之间。"无穷大的期望"与"愿付价格"的鸿沟，告诉我们关于"理性"什么？是数学错了，还是"理性"这个概念本身需要重写？

大数定律 vs 小数定律：人类直觉的系统性失败

Law of Large Numbers vs the Law of Small Numbers · 极限定理 / 认知偏差

Limit Theorems

直觉版

大数定律 (LLN)：重复一个随机实验足够多次，样本平均一定逼近期望值。掷一枚公平硬币 100 万次，正面比例会非常接近 50%。这看起来废话——但严格证明它需要近代分析学的全部机器。

问题是，人类有个奇怪的认知 bug：我们倾向于相信小样本也已经能代表整体。Kahneman 与 Tversky 1971 年戏称这是「小数定律」(the Law of Small Numbers)。掷 4 次硬币 4 次都正面——很多人会觉得"反面已经欠了一笔账，下次该出反面了"。这是赌徒谬误 (gambler's fallacy)。硬币没有记忆。反过来：篮球手连进 5 球，观众觉得他"手感来了"——这是热手谬误 (hot-hand fallacy)。Gilovich 等 1985 年的研究称这是错觉，但 Miller & Sanjurjo 2018 年重新分析后发现，热手在某些情境下其实真实存在——他们指出原研究本身犯了一个微妙的统计偏差。人类直觉容易翻车，但批评直觉的研究也会翻车。

$$\bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_i \;\xrightarrow{P}\; \mu \quad (n \to \infty)$$

为什么美 + 为什么我们栽跟头

LLN 是连接"概率"和"现实"的桥：没有它，期望值就只是一个空概念。它由 Jacob Bernoulli 在 1713 年遗著《Ars Conjectandi》中首次严格证明。但 LLN 只在 "$n$ 足够大" 时才适用——而人类的"足够"和数学的"足够"差得很远。投资 5 只股票 3 只赚了，不能说明你"会选股"；A/B 测试只跑 100 人不能信；流行病学小样本研究随时翻车。统计学的一半工作，就是把"看似有趣的小样本现象"打回原形。

应用 / 反例

金融：基金经理过去 5 年跑赢市场——是技能还是运气？Brinson-Hood-Beebower 论证大多数是运气；幸存者偏差 (survivorship bias) 让我们只看见赢的那群人。医学：新冠早期大量"某药有效"的小样本研究后来几乎全部翻车。AI：模型在 100 个 hold-out 样本上准确率 95%，部署后崩盘——因为分布漂移加上小样本评估方差太大。招聘 / 投资 / 创业判断：用单次面试或单次商业计划 judge 一个人，本质是在拿小样本对抗大数定律。

历史与人物

Jacob Bernoulli（1654–1705）第一次严格证明 LLN，称之为「金科玉律」 (theorema aureum)。他写道："连最愚钝的人都凭本能知道：观察越多越接近真相。但要把它变成严格数学定理，远比想象的难——我花了二十年。" Kahneman 与 Tversky 1971 年的论文《Belief in the Law of Small Numbers》正式诊断了这种认知偏差，奠定了行为经济学。Nassim Taleb 把它推到极致：在厚尾分布 (fat-tailed) 下，"样本均值"本身就不可靠——黑天鹅事件可以让任何"已知"的均值崩盘。

深入资源

• Daniel Kahneman — 《Thinking, Fast and Slow》第 10 章 "The Law of Small Numbers"
• Nassim Taleb — 《Fooled by Randomness》

English Insight： Law of Large Numbers (LLN)；Central Limit Theorem (CLT) 中心极限定理；regression to the mean 均值回归；survivorship bias 幸存者偏差；gambler's fallacy / hot-hand fallacy；statistical significance 统计显著性；fat-tailed distribution 厚尾分布。

思考题：如果"小样本不可信"，为什么《圣经》《史记》《古文献》里那些孤例性的奇闻轶事，依然能塑造一代代人的世界观？是不是人类大脑根本不是为大数定律设计的，而是为"单个故事的代表性"设计的？这对我们今天该相信什么、不该相信什么意味着什么？