Day 3 · 2026.05.23

微积分核心思想

The Essence of Calculus — 用 3Blue1Brown 的眼睛重新看微积分
"Calculus is the mathematics of change, and the universe is changing." — Steven Strogatz, Infinite Powers

极限

The Limit · 分析学的地基
Analysis
直觉版

想象你要量一个曲线下方的面积。你切成 10 个矩形——不准。切成 100 个——更准。切成 1000、10000……每加一刀,误差就缩小一点。极限 想说的是:「如果我能想象一直切下去——切到无穷细——最后那个值会逼近一个确定的数。」

关键的精妙之处是:我们并不真的切到「无穷」,而是说「想要多准都能多准」。这就是 ε–δ 语言:你给我任意小的误差 ε,我都能给你一个 N,让 N 步之后的结果离目标值小于 ε。极限不是「跑到无穷远的某个神秘地点」,它是 「可以无限逼近」。这个翻译——把「无穷」翻译成「有限的可控逼近」——是 19 世纪 Cauchy 和 Weierstrass 完成的伟大语法重构。

n=4 n=10 n→∞ ∫f
为什么美

极限解决了希腊人两千年都没解决的问题——「芝诺悖论」。阿基里斯永远追不上乌龟,因为每次他到达乌龟原来的位置,乌龟又往前挪了一点……古希腊人陷在「无穷多步永远做不完」里。极限的答案是:无穷多个递减的距离可以加出一个有限的和($\frac{1}{2}+\frac{1}{4}+\frac{1}{8}+\cdots = 1$)。这是人类第一次驯服了「无穷」。Strogatz 在《Infinite Powers》中称这是「数学最深的发明」。

应用

极限是所有现代物理、工程、机器学习的基础。梯度下降「步长趋于 0」、神经网络「层数趋于无穷得到深度网络的极限行为」、数值方法「网格越来越细」——本质都是极限。在 ML 中,NTK(Neural Tangent Kernel) 就是研究「宽度→∞」时神经网络的极限行为,意外地变得可以解析分析。

历史与人物

牛顿和莱布尼茨发明微积分时(1670s),用的是模糊的「无穷小」(infinitesimal)——一个比任何正数都小但又不是 0 的东西。哲学家 Berkeley 主教讽刺它是「死去量的鬼魂」(ghosts of departed quantities)。直到 1820 年代 Cauchy、1850 年代 Weierstrass 引入 ε–δ 定义,微积分才有了严格的地基。一个半世纪的「数学是不严谨但有用」的时代结束了。

深入资源
  • 3Blue1Brown · Essence of Calculus, Ch.7: Limits(极限的视觉直觉)
  • Strogatz · Infinite Powers(极限与芝诺)
English Insight
limit · ε–δ definition · infinitesimal · convergence。「在极限意义下」= in the limit。「逼近」= approaches / tends to。「严格化」= rigorization,常指 Weierstrass 的工作。
思考题
$0.999\ldots$ 等于 $1$ 吗?大部分人凭直觉觉得「无限接近但小一点点」。如果你认真相信极限的定义,你的答案应该是什么?这两种答案的差别,反映了什么样的数学世界观?

导数 = 瞬时变化率

Derivative as Instantaneous Rate of Change
Differential Calculus
$$f'(x) = \lim_{h \to 0}\frac{f(x+h)-f(x)}{h}$$
直觉版

你开车,速度表显示 60 km/h。什么叫"此刻"的速度?「此刻」是一个点,0 时间内没有位移,0/0 没有意义。但你的速度表偏偏给出了一个数。导数就是这个谜的解答:在越来越短的时间窗口里平均速度收敛到的那个值。

几何上,导数 = 函数图像在某点的切线斜率。把曲线放大放大再放大——足够近时,任何光滑曲线看上去都像一条直线。那条直线的斜率,就是导数。这是 3Blue1Brown 反复强调的一点:"zoom in until curved becomes straight"。导数不是「除以零」的魔法,它是「在无限放大下曲线变直线」的几何事实。

x 割线 h 大 切线 = f'(x) x f(x)
为什么美

导数把「速度」「斜率」「边际成本」「化学反应速率」「人口增长率」「损失函数下降方向」统一成了同一个数学对象。一个概念,无数面孔。这就是抽象的力量——发现表面无关的事物背后共享同一个结构。Tao 在博客里写过:「微积分的真正魔法不在于公式,而在于它让我们能系统地谈论变化。」

应用

整个机器学习训练 = 计算损失函数对权重的导数,沿梯度反方向调整。反向传播 就是用链式法则 $\frac{dL}{dw} = \frac{dL}{dy}\cdot\frac{dy}{dw}$ 高效地计算几亿参数的偏导。GPT-5 训练的每一步,本质都是导数在指路。物理上 $F = ma$ 中的 $a$ 是位置对时间的二阶导数。生物学里增长 = 一阶导数,加速增长 = 二阶导数。

历史与人物

1666 年,瘟疫迫使剑桥关闭,23 岁的牛顿回到乡下 Woolsthorpe,独立发明了流数法 (method of fluxions)。几乎同时(1670s 末),莱布尼茨在欧洲大陆独立发展出 $dy/dx$ 记号。两人后续的优先权之争是数学史上最著名的撕逼,但今天我们用的几乎都是莱布尼茨的记号——更清晰、更结构化。

深入资源
  • 3Blue1Brown · Essence of Calculus, Ch.2: The paradox of the derivative(导数即放大)
  • Spivak · Calculus(严谨派经典)
English Insight
derivative · differentiable · tangent line · rate of change · chain rule。「对 x 求导」= take the derivative with respect to x。「光滑函数」= smooth function(任意阶可导)。「梯度」= gradient(多元导数的向量推广)。
思考题
为什么 $|x|$(绝对值函数)在 $x=0$ 处没有导数?画出来看看——它的图像在原点有个尖。"尖"在数学上意味着什么?神经网络里的 ReLU 激活函数也有这个尖,那么梯度下降是怎么处理它的?

积分 = 无穷小累加

Integral as Continuous Sum
Integral Calculus
$$\int_a^b f(x)\,dx = \lim_{n\to\infty}\sum_{i=1}^{n} f(x_i)\,\Delta x$$
直觉版

积分号 $\int$ 是拉长的 S,代表 Sum——求和。$dx$ 是「无穷小的宽度」,$f(x)$ 是「那一瞬间的高度」,乘起来是「一个超薄矩形的面积」。把无穷多个超薄矩形加起来,就是曲线下的总面积。

但「面积」只是积分的一张脸。它真正在做的是:把一个连续变化的量在一段区间上累加起来。速度积分得位移、功率积分得能量、概率密度积分得概率、人口增长率积分得人口、GPU 利用率积分得算力消耗。任何「率」乘上时间累加,都是积分。3Blue1Brown 的精彩翻译:积分回答的是「总共发生了多少」,导数回答的是「现在变化多快」。

为什么美

积分让我们能精确计算不规则形状的面积、非匀变速的位移、非均匀分布的质量——所有「不能用初等几何/算术算的累加」。这是希腊人「穷竭法」(method of exhaustion) 的现代形态,阿基米德用类似思想算出了圆面积 $\pi r^2$、抛物线弓形的面积。两千年后,牛顿—莱布尼茨给了它一个通用机器。Hardy 会说:这种「把无限多个零相乘相加居然得到有限非零」的能力,是数学最不像常识的胜利。

应用

电荷的总量 = 电流对时间的积分;信号的能量 = $\int |x(t)|^2 dt$;概率论中的期望 = $\int x\,p(x)\,dx$;Diffusion 模型里训练目标是对噪声水平 $t$ 的积分。麦克斯韦方程组、薛定谔方程、Black-Scholes 期权定价、流体力学的 Navier-Stokes——现代科学的方程几乎全部是微分/积分方程

历史与人物

积分思想比微分更古老。阿基米德(约公元前 250 年)已经用「穷竭法」算出了球的体积公式 $\frac{4}{3}\pi r^3$,他本人最自豪的发现——以至于他要求把这个图刻在墓碑上。Cavalieri 在 17 世纪初提出"不可分量"原理,是积分的雏形。莱布尼茨在 1675 年 10 月 29 日第一次在笔记中写下 $\int$ 号——数学史上少有的可以精确日期的诞生时刻。

深入资源
  • 3Blue1Brown · Essence of Calculus, Ch.1 & Ch.8(积分与面积的直觉)
  • Strogatz · Infinite Powers(阿基米德到牛顿的脉络)
English Insight
integral · integrand · antiderivative · Riemann sum。「定积分」= definite integral。「不定积分」= indefinite integral / antiderivative。「被积函数」= integrand。「黎曼和」= Riemann sum
思考题
考虑 $\int_0^\infty \frac{\sin x}{x}\,dx = \frac{\pi}{2}$。被积函数永远在正负之间震荡,却得到一个干净的 $\pi/2$。这种「无穷的振荡居然收敛到 $\pi$」的现象,为什么让数学家觉得宇宙有一种诡异的秩序?

微积分基本定理

Fundamental Theorem of Calculus — 微分与积分是同一枚硬币的两面
Fundamental Theorem
$$\int_a^b f(x)\,dx = F(b) - F(a),\quad \text{其中 } F'(x)=f(x)$$
直觉版

导数把「累积量」变成「变化率」(位置 → 速度),积分把「变化率」变回「累积量」(速度 → 位置)。它们是互逆的。这个看似平凡的事实,是微积分整个学科存在的理由。

更深的直觉:假设 $F(x)$ 表示「从起点到 $x$ 累积的面积」。那么从 $x$ 多走一点点 $dx$,新增的面积 ≈ 高度 $f(x)$ × 宽度 $dx$。换句话说:$dF = f\,dx$,即 $F'(x) = f(x)$。「累积函数的瞬时变化率,就是被累积的那个量本身」——这就是基本定理的几何灵魂。它把「求面积」这个看上去要无穷次相加的难事,转化成了「找一个反导数,相减两个值」的简单事。

f(x) F(x) = ∫f dx dF = f·dx x
为什么美

17 世纪之前,「求曲线下面积」(quadrature) 和「求切线斜率」(tangent problem) 是两门毫不相关的手艺——前者属于阿基米德传统,后者属于费马、笛卡尔的解析几何。牛顿和莱布尼茨独立发现:它们居然互为逆运算。这就好比有人突然证明了「上楼梯」和「下楼梯」是同一个动作的两个方向——一个让两千年的两个独立领域合并成一个统一学科。这是数学史上少有的「桥被发现,两岸合并」的时刻之一。Strogatz 称之为「微积分的奇迹」(the miracle of calculus)。

应用

计算物理量、概率、统计中的所有积分,本质都靠基本定理:找反导数,代入端点相减。在数值计算里,这是辛普森法、龙格-库塔法等算法的理论基础。在自动微分(PyTorch/JAX)中,前向 = 累积,反向 = 求导,本质就是这个对偶关系在算法层面的体现。物理学中 Stokes 定理、Green 定理、Gauss 散度定理都是它在高维的推广——同一首乐曲不同声部。

历史与人物

这个定理的雏形最早见于 17 世纪 50 年代 Isaac Barrow(牛顿的剑桥导师)的几何讲义中——但 Barrow 自己没意识到它的革命性。牛顿和莱布尼茨从不同角度独立地系统化了它。有趣的是,两人都没有用现代「函数」概念表述——「函数」要等到 18 世纪 Euler 才正式建立。所以严格的、我们今天教科书上的形式,是 19 世纪 Cauchy 才完成的。从直觉发现到严格表述,整整两百年。

3Blue1Brown 视角
Grant Sanderson 的话:"如果你只能从微积分课记住一件事,让它是这个:导数和积分是互逆的。所有公式、所有技巧、所有应用,都从这一句话长出来。"
深入资源
  • 3Blue1Brown · Essence of Calculus, Ch.8: Integration & the fundamental theorem
  • Tristan Needham · Visual Complex Analysis(几何视角下的微积分推广)
English Insight
fundamental theorem of calculus (FTC) · antiderivative · evaluate at endpoints。「互逆运算」= inverse operations。「累积函数」= accumulation function。在高维里它的推广是 Stokes' theorem——「边界上的积分 = 内部的导数积分」。
思考题
设想你只测量了某一天每小时的降雨速率(毫米/小时),怎么算这一天的总降雨量?这个简单的实际问题里,藏着微积分基本定理的全部精神。再问:如果你测得的不是「率」而是「累积量」,怎么反推出「率」?这两个方向,你能感受到导数与积分的对偶吗?