Day 3 · 2026.05.23

微积分核心思想

The Essence of Calculus — 用 3Blue1Brown 的眼睛重新看微积分

"Calculus is the mathematics of change, and the universe is changing." — Steven Strogatz, Infinite Powers

极限

The Limit · 分析学的地基

Analysis

直觉版

想象你要量一个曲线下方的面积。你切成 10 个矩形——不准。切成 100 个——更准。切成 1000、10000……每加一刀，误差就缩小一点。极限想说的是：「如果我能想象一直切下去——切到无穷细——最后那个值会逼近一个确定的数。」

关键的精妙之处是：我们并不真的切到「无穷」，而是说「想要多准都能多准」。这就是 ε–δ 语言：你给我任意小的误差 ε，我都能给你一个 N，让 N 步之后的结果离目标值小于 ε。极限不是「跑到无穷远的某个神秘地点」，它是 「可以无限逼近」。这个翻译——把「无穷」翻译成「有限的可控逼近」——是 19 世纪 Cauchy 和 Weierstrass 完成的伟大语法重构。

为什么美

极限解决了希腊人两千年都没解决的问题——「芝诺悖论」。阿基里斯永远追不上乌龟，因为每次他到达乌龟原来的位置，乌龟又往前挪了一点……古希腊人陷在「无穷多步永远做不完」里。极限的答案是：无穷多个递减的距离可以加出一个有限的和（$\frac{1}{2}+\frac{1}{4}+\frac{1}{8}+\cdots = 1$）。这是人类第一次驯服了「无穷」。Strogatz 在《Infinite Powers》中称这是「数学最深的发明」。

应用

极限是所有现代物理、工程、机器学习的基础。梯度下降「步长趋于 0」、神经网络「层数趋于无穷得到深度网络的极限行为」、数值方法「网格越来越细」——本质都是极限。在 ML 中，NTK（Neural Tangent Kernel） 就是研究「宽度→∞」时神经网络的极限行为，意外地变得可以解析分析。

历史与人物

牛顿和莱布尼茨发明微积分时（1670s），用的是模糊的「无穷小」(infinitesimal)——一个比任何正数都小但又不是 0 的东西。哲学家 Berkeley 主教讽刺它是「死去量的鬼魂」(ghosts of departed quantities)。直到 1820 年代 Cauchy、1850 年代 Weierstrass 引入 ε–δ 定义，微积分才有了严格的地基。一个半世纪的「数学是不严谨但有用」的时代结束了。

深入资源

3Blue1Brown · Essence of Calculus, Ch.7: Limits（极限的视觉直觉）
Strogatz · Infinite Powers（极限与芝诺）

English Insight

limit · ε–δ definition · infinitesimal · convergence。「在极限意义下」= in the limit。「逼近」= approaches / tends to。「严格化」= rigorization，常指 Weierstrass 的工作。

思考题

$0.999\ldots$ 等于 $1$ 吗？大部分人凭直觉觉得「无限接近但小一点点」。如果你认真相信极限的定义，你的答案应该是什么？这两种答案的差别，反映了什么样的数学世界观？

导数 = 瞬时变化率

Derivative as Instantaneous Rate of Change

Differential Calculus

$$f'(x) = \lim_{h \to 0}\frac{f(x+h)-f(x)}{h}$$

直觉版

你开车，速度表显示 60 km/h。什么叫"此刻"的速度？「此刻」是一个点，0 时间内没有位移，0/0 没有意义。但你的速度表偏偏给出了一个数。导数就是这个谜的解答：在越来越短的时间窗口里平均速度收敛到的那个值。

几何上，导数 = 函数图像在某点的切线斜率。把曲线放大放大再放大——足够近时，任何光滑曲线看上去都像一条直线。那条直线的斜率，就是导数。这是 3Blue1Brown 反复强调的一点："zoom in until curved becomes straight"。导数不是「除以零」的魔法，它是「在无限放大下曲线变直线」的几何事实。

为什么美

导数把「速度」「斜率」「边际成本」「化学反应速率」「人口增长率」「损失函数下降方向」统一成了同一个数学对象。一个概念，无数面孔。这就是抽象的力量——发现表面无关的事物背后共享同一个结构。Tao 在博客里写过：「微积分的真正魔法不在于公式，而在于它让我们能系统地谈论变化。」

应用

整个机器学习训练 = 计算损失函数对权重的导数，沿梯度反方向调整。反向传播 就是用链式法则 $\frac{dL}{dw} = \frac{dL}{dy}\cdot\frac{dy}{dw}$ 高效地计算几亿参数的偏导。GPT-5 训练的每一步，本质都是导数在指路。物理上 $F = ma$ 中的 $a$ 是位置对时间的二阶导数。生物学里增长 = 一阶导数，加速增长 = 二阶导数。

历史与人物

1666 年，瘟疫迫使剑桥关闭，23 岁的牛顿回到乡下 Woolsthorpe，独立发明了流数法 (method of fluxions)。几乎同时（1670s 末），莱布尼茨在欧洲大陆独立发展出 $dy/dx$ 记号。两人后续的优先权之争是数学史上最著名的撕逼，但今天我们用的几乎都是莱布尼茨的记号——更清晰、更结构化。

深入资源

3Blue1Brown · Essence of Calculus, Ch.2: The paradox of the derivative（导数即放大）
Spivak · Calculus（严谨派经典）

English Insight

derivative · differentiable · tangent line · rate of change · chain rule。「对 x 求导」= take the derivative with respect to x。「光滑函数」= smooth function（任意阶可导）。「梯度」= gradient（多元导数的向量推广）。

思考题

为什么 $|x|$（绝对值函数）在 $x=0$ 处没有导数？画出来看看——它的图像在原点有个尖。"尖"在数学上意味着什么？神经网络里的 ReLU 激活函数也有这个尖，那么梯度下降是怎么处理它的？

积分 = 无穷小累加

Integral as Continuous Sum

Integral Calculus

$$\int_a^b f(x)\,dx = \lim_{n\to\infty}\sum_{i=1}^{n} f(x_i)\,\Delta x$$

直觉版

积分号 $\int$ 是拉长的 S，代表 Sum——求和。$dx$ 是「无穷小的宽度」，$f(x)$ 是「那一瞬间的高度」，乘起来是「一个超薄矩形的面积」。把无穷多个超薄矩形加起来，就是曲线下的总面积。

但「面积」只是积分的一张脸。它真正在做的是：把一个连续变化的量在一段区间上累加起来。速度积分得位移、功率积分得能量、概率密度积分得概率、人口增长率积分得人口、GPU 利用率积分得算力消耗。任何「率」乘上时间累加，都是积分。3Blue1Brown 的精彩翻译：积分回答的是「总共发生了多少」，导数回答的是「现在变化多快」。

为什么美

积分让我们能精确计算不规则形状的面积、非匀变速的位移、非均匀分布的质量——所有「不能用初等几何/算术算的累加」。这是希腊人「穷竭法」(method of exhaustion) 的现代形态，阿基米德用类似思想算出了圆面积 $\pi r^2$、抛物线弓形的面积。两千年后，牛顿—莱布尼茨给了它一个通用机器。Hardy 会说：这种「把无限多个零相乘相加居然得到有限非零」的能力，是数学最不像常识的胜利。

应用

电荷的总量 = 电流对时间的积分；信号的能量 = $\int |x(t)|^2 dt$；概率论中的期望 = $\int x\,p(x)\,dx$；Diffusion 模型里训练目标是对噪声水平 $t$ 的积分。麦克斯韦方程组、薛定谔方程、Black-Scholes 期权定价、流体力学的 Navier-Stokes——现代科学的方程几乎全部是微分/积分方程。

历史与人物

积分思想比微分更古老。阿基米德（约公元前 250 年）已经用「穷竭法」算出了球的体积公式 $\frac{4}{3}\pi r^3$，他本人最自豪的发现——以至于他要求把这个图刻在墓碑上。Cavalieri 在 17 世纪初提出"不可分量"原理，是积分的雏形。莱布尼茨在 1675 年 10 月 29 日第一次在笔记中写下 $\int$ 号——数学史上少有的可以精确日期的诞生时刻。

深入资源

3Blue1Brown · Essence of Calculus, Ch.1 & Ch.8（积分与面积的直觉）
Strogatz · Infinite Powers（阿基米德到牛顿的脉络）

English Insight

integral · integrand · antiderivative · Riemann sum。「定积分」= definite integral。「不定积分」= indefinite integral / antiderivative。「被积函数」= integrand。「黎曼和」= Riemann sum。

思考题

考虑 $\int_0^\infty \frac{\sin x}{x}\,dx = \frac{\pi}{2}$。被积函数永远在正负之间震荡，却得到一个干净的 $\pi/2$。这种「无穷的振荡居然收敛到 $\pi$」的现象，为什么让数学家觉得宇宙有一种诡异的秩序？

微积分基本定理

Fundamental Theorem of Calculus — 微分与积分是同一枚硬币的两面

Fundamental Theorem

$$\int_a^b f(x)\,dx = F(b) - F(a),\quad \text{其中 } F'(x)=f(x)$$

直觉版

导数把「累积量」变成「变化率」（位置 → 速度），积分把「变化率」变回「累积量」（速度 → 位置）。它们是互逆的。这个看似平凡的事实，是微积分整个学科存在的理由。

更深的直觉：假设 $F(x)$ 表示「从起点到 $x$ 累积的面积」。那么从 $x$ 多走一点点 $dx$，新增的面积 ≈ 高度 $f(x)$ × 宽度 $dx$。换句话说：$dF = f\,dx$，即 $F'(x) = f(x)$。「累积函数的瞬时变化率，就是被累积的那个量本身」——这就是基本定理的几何灵魂。它把「求面积」这个看上去要无穷次相加的难事，转化成了「找一个反导数，相减两个值」的简单事。

为什么美

17 世纪之前，「求曲线下面积」(quadrature) 和「求切线斜率」(tangent problem) 是两门毫不相关的手艺——前者属于阿基米德传统，后者属于费马、笛卡尔的解析几何。牛顿和莱布尼茨独立发现：它们居然互为逆运算。这就好比有人突然证明了「上楼梯」和「下楼梯」是同一个动作的两个方向——一个让两千年的两个独立领域合并成一个统一学科。这是数学史上少有的「桥被发现，两岸合并」的时刻之一。Strogatz 称之为「微积分的奇迹」(the miracle of calculus)。

应用

计算物理量、概率、统计中的所有积分，本质都靠基本定理：找反导数，代入端点相减。在数值计算里，这是辛普森法、龙格-库塔法等算法的理论基础。在自动微分（PyTorch/JAX）中，前向 = 累积，反向 = 求导，本质就是这个对偶关系在算法层面的体现。物理学中 Stokes 定理、Green 定理、Gauss 散度定理都是它在高维的推广——同一首乐曲不同声部。

历史与人物

这个定理的雏形最早见于 17 世纪 50 年代 Isaac Barrow（牛顿的剑桥导师）的几何讲义中——但 Barrow 自己没意识到它的革命性。牛顿和莱布尼茨从不同角度独立地系统化了它。有趣的是，两人都没有用现代「函数」概念表述——「函数」要等到 18 世纪 Euler 才正式建立。所以严格的、我们今天教科书上的形式，是 19 世纪 Cauchy 才完成的。从直觉发现到严格表述，整整两百年。

3Blue1Brown 视角

Grant Sanderson 的话："如果你只能从微积分课记住一件事，让它是这个：导数和积分是互逆的。所有公式、所有技巧、所有应用，都从这一句话长出来。"

深入资源

3Blue1Brown · Essence of Calculus, Ch.8: Integration & the fundamental theorem
Tristan Needham · Visual Complex Analysis（几何视角下的微积分推广）

English Insight

fundamental theorem of calculus (FTC) · antiderivative · evaluate at endpoints。「互逆运算」= inverse operations。「累积函数」= accumulation function。在高维里它的推广是 Stokes' theorem——「边界上的积分 = 内部的导数积分」。

思考题

设想你只测量了某一天每小时的降雨速率（毫米/小时），怎么算这一天的总降雨量？这个简单的实际问题里，藏着微积分基本定理的全部精神。再问：如果你测得的不是「率」而是「累积量」，怎么反推出「率」？这两个方向，你能感受到导数与积分的对偶吗？