你做了某癌症筛查,结果阳性。这种癌症在你这个年龄段的发病率是 1%。检测灵敏度 90%(有病时 90% 概率测出),特异度也 90%(没病时 90% 概率正常)。你真的患癌的概率是多少?大多数人脱口而出 90%。真实答案约 8.3%。
用 1000 个像你一样的人来想:10 个真有病,约 9 个被测出阳性;剩下 990 个健康人里,10% 被误测——99 个假阳。一共 9 + 99 = 108 个阳性结果,真正有病的只有 9 个。$9/108 \approx 8.3\%$。这就是 Bayes 定理在做的事——它把"先验信念"(基础发病率)和"证据"(测试结果)融合成"后验信念"。一行话:新信念 = 旧信念 × 这条证据有多支持它。
Bayes 公式把"理性更新"从直觉升级成代数。它说明:忽视先验(base rate neglect)是人类思维最系统的错误之一——Kahneman 用整本《思考,快与慢》在论证这点。在贝叶斯主义者眼中,概率不是世界的属性,而是观察者信念的强度。这是 20 世纪科学哲学最大的分歧之一(频率派 vs 贝叶斯派)。E.T. Jaynes 在《Probability Theory: The Logic of Science》开篇说:"概率论是逻辑学的扩展——把布尔代数从 {真, 假} 扩展到 [0, 1] 上的可信度。"
垃圾邮件过滤(每个词都是证据,更新邮件是否为垃圾的后验);医学诊断(不读基础发病率就解读阳性,几乎必错);AI / 机器学习里的 Bayesian networks、MCMC、变分推断、Bayesian deep learning;法庭推理(辛普森案中辩方故意混淆 $P(\text{凶手} \mid \text{证据})$ 与 $P(\text{证据} \mid \text{凶手})$,被称为检察官谬误 prosecutor's fallacy)。
Thomas Bayes(1701–1761)是英国长老会牧师兼业余数学家,生前没发表这个定理,逝后由朋友 Richard Price 在 1763 年向皇家学会宣读。真正把它推广的是 Pierre-Simon Laplace——他独立重新发现并系统化。但 19 世纪末 R.A. Fisher 等频率派学者把贝叶斯派打入冷宫近一个世纪。直到 1980 年代借助计算机与 MCMC 算法,贝叶斯主义才"复活"为现代统计与 AI 的主流之一。
• 3Blue1Brown — 《The medical test paradox》
• E.T. Jaynes — 《Probability Theory: The Logic of Science》(贝叶斯派的"圣经")
你想算圆周率 $\pi$,但不会微积分。画一个 $2 \times 2$ 的正方形,内切一个半径 1 的圆——圆面积 $\pi$,正方形面积 4,所以圆/正方形 = $\pi/4$。然后你闭着眼往正方形里随机扔豆子。扔 10 万颗,统计落入圆内的比例,乘 4,就是 $\pi$ 的近似值。
这就是蒙特卡罗:当一个问题难以解析求解,就用随机模拟无数次,让大数定律帮你算出答案。它把不确定性反过来当作工具——你不再被随机性折磨,而是用随机性破题。
要估计 $\mathbb{E}[f(X)]$,独立采样 $X_1, X_2, \ldots, X_n$,用 $\frac{1}{n}\sum_{i=1}^n f(X_i)$ 近似。误差按 $O(1/\sqrt{n})$ 收敛——慢,但与维度无关,这是它的杀手锏。
传统数值方法(网格、有限元)在维度 $d$ 上的成本是 $O(N^d)$——3 维还行,30 维就崩。蒙特卡罗的误差只与样本数有关,维数灾难在它眼里不存在。这就是为什么金融衍生品定价(几十维资产)、贝叶斯推断(几百维参数)、AlphaGo 的树搜索(巨大状态空间)都必须用它。最美的是:蒙特卡罗不解题,它绕过问题——这是数学家精神的某种极致:当不能直击,就重新定义战场。
曼哈顿计划:模拟中子在裂变材料中的扩散——蒙特卡罗的诞生场景。金融:期权定价、风险价值 (VaR)。物理:Ising 模型、晶格 QCD。AI:AlphaGo 的 Monte Carlo Tree Search、强化学习中的策略评估。电影 CGI:现代离线渲染的 Path Tracing 本质就是高维空间里的蒙特卡罗积分——皮克斯每一帧都在扔豆子。
1946 年,物理学家 Stanislaw Ulam 在洛斯阿拉莫斯生病期间玩纸牌游戏,思考"赢一局的概率怎么算"。他突然想:与其穷举所有可能,不如直接模拟很多局取频率。他和 John von Neumann 把这个想法用于氢弹中子模拟。Nicholas Metropolis 给它起了"Monte Carlo"这个代号——因为 Ulam 叔叔总在摩纳哥赌场赌钱。1953 年的 Metropolis–Hastings 算法奠定了现代 MCMC 的基础。
• 3Blue1Brown — 《But what is the Central Limit Theorem?》
• Christian Robert & George Casella — 《Monte Carlo Statistical Methods》
掷一颗公平骰子,"期望"得到多少点?答案 3.5。但骰子没有 3.5 这一面——你永远不会单次掷出 3.5。所以"期望值"这个词其实有点误导:它不是"我期望发生什么",而是"如果我玩这个游戏一万次,平均结果是多少"。
更好的比喻:把概率分布想成一根铁丝,每个可能结果挂一个小球,重量等于它的概率。期望值就是这根铁丝的重心——你用一根手指托在重心位置,整个分布刚好平衡。这就是为什么数学家有时把期望值叫做 first moment(一阶矩)——和力学里"质量 × 位置"的矩同源。
期望最深刻的性质叫线性:$\mathbb{E}[X + Y] = \mathbb{E}[X] + \mathbb{E}[Y]$,即使 $X$ 和 $Y$ 不独立——它们可以完全相关,等式照样成立。这是概率论里少有的"无条件免费"恒等式。无数难题靠这一行救命:随机抽 $n$ 张牌,期望出现多少对子?给每对牌定义一个 0/1 指示变量,逐对求期望,相加——不需要管它们是否独立。这种"先拆成指示变量再求和"的套路在组合概率里几乎无敌。
但期望也有坑:1738 年 Daniel Bernoulli 提出圣彼得堡悖论——一个游戏的数学期望是无穷大,但没人愿意花 1000 块买入。这逼出了效用理论:人在乎的不只是金钱的期望,还有方差与风险厌恶。这是行为经济学的起点。
保险定价:保费 ≈ 期望赔付 + 运营成本 + 利润;Kelly 准则:赌博 / 投资里的最优下注比例;强化学习的 Bellman 方程 $V(s) = \mathbb{E}[r + \gamma V(s')]$ 就是期望的递归;几乎所有"理性决策 = 最大化期望效用"的理论框架,都从这里出发。
1654 年,法国贵族 Chevalier de Méré 向 Pascal 请教一个赌博问题:"两人下注玩到一定分数算赢;中途中断怎么分钱?"Pascal 和 Fermat 通过书信讨论这个 Problem of Points——这段通信被公认为现代概率论的诞生。期望值是他们的核心工具。Christiaan Huygens 1657 年的小书《De Ratiociniis in Ludo Aleae》第一次正式把它写成定义。
• Leonard Mlodinow — 《The Drunkard's Walk: How Randomness Rules Our Lives》
• Steven Strogatz — 《The Joy of x》"Chances Are" 章
大数定律 (LLN):重复一个随机实验足够多次,样本平均一定逼近期望值。掷一枚公平硬币 100 万次,正面比例会非常接近 50%。这看起来废话——但严格证明它需要近代分析学的全部机器。
问题是,人类有个奇怪的认知 bug:我们倾向于相信小样本也已经能代表整体。Kahneman 与 Tversky 1971 年戏称这是「小数定律」(the Law of Small Numbers)。掷 4 次硬币 4 次都正面——很多人会觉得"反面已经欠了一笔账,下次该出反面了"。这是赌徒谬误 (gambler's fallacy)。硬币没有记忆。反过来:篮球手连进 5 球,观众觉得他"手感来了"——这是热手谬误 (hot-hand fallacy)。Gilovich 等 1985 年的研究称这是错觉,但 Miller & Sanjurjo 2018 年重新分析后发现,热手在某些情境下其实真实存在——他们指出原研究本身犯了一个微妙的统计偏差。人类直觉容易翻车,但批评直觉的研究也会翻车。
LLN 是连接"概率"和"现实"的桥:没有它,期望值就只是一个空概念。它由 Jacob Bernoulli 在 1713 年遗著《Ars Conjectandi》中首次严格证明。但 LLN 只在 "$n$ 足够大" 时才适用——而人类的"足够"和数学的"足够"差得很远。投资 5 只股票 3 只赚了,不能说明你"会选股";A/B 测试只跑 100 人不能信;流行病学小样本研究随时翻车。统计学的一半工作,就是把"看似有趣的小样本现象"打回原形。
金融:基金经理过去 5 年跑赢市场——是技能还是运气?Brinson-Hood-Beebower 论证大多数是运气;幸存者偏差 (survivorship bias) 让我们只看见赢的那群人。医学:新冠早期大量"某药有效"的小样本研究后来几乎全部翻车。AI:模型在 100 个 hold-out 样本上准确率 95%,部署后崩盘——因为分布漂移加上小样本评估方差太大。招聘 / 投资 / 创业判断:用单次面试或单次商业计划 judge 一个人,本质是在拿小样本对抗大数定律。
Jacob Bernoulli(1654–1705)第一次严格证明 LLN,称之为「金科玉律」 (theorema aureum)。他写道:"连最愚钝的人都凭本能知道:观察越多越接近真相。但要把它变成严格数学定理,远比想象的难——我花了二十年。" Kahneman 与 Tversky 1971 年的论文《Belief in the Law of Small Numbers》正式诊断了这种认知偏差,奠定了行为经济学。Nassim Taleb 把它推到极致:在厚尾分布 (fat-tailed) 下,"样本均值"本身就不可靠——黑天鹅事件可以让任何"已知"的均值崩盘。
• Daniel Kahneman — 《Thinking, Fast and Slow》第 10 章 "The Law of Small Numbers"
• Nassim Taleb — 《Fooled by Randomness》