Day 4 · 2026.05.27

线性代数核心

The Essence of Linear Algebra — 把数字看成几何，把矩阵看成动作

"There are two kinds of people in the world: those who think of matrices as arrays of numbers, and those who think of them as linear transformations. The second kind have all the fun." — paraphrased after Sheldon Axler, Linear Algebra Done Right

向量 = 列表，也是箭头，也是抽象

Vector · 线性代数 / 几何

Vector Space

直觉版

同一只向量，物理学家、程序员、数学家眼里是三件不同的东西。物理学家 看到一支带方向的箭头：力、速度、位移。程序员 看到一个数字列表：[2, 1.3, -0.7]，一行数据、一张图片的像素、一个 word embedding。数学家 干脆把这两种具体说法扔掉，问：「能加，能数乘，那就是向量」——只要你的对象能叠加和缩放，并且这两种操作满足几条朴素的规则，它就活在一个「向量空间」里。多项式可以是向量，函数可以是向量，量子态可以是向量。

3Blue1Brown 把这三层视角的相遇说成线性代数最重要的一件事：「箭头 ↔ 列表」的字典是几何与计算之间的桥。你写一个 numpy 数组，背后是几何对象；你画一支箭头，背后是一组坐标。线代的所有公式，本质都在两边翻译。

正式定义

一个 向量空间 $V$（域 $\mathbb{R}$ 上）是带两个运算 ${+}: V\times V\to V$、${\cdot}: \mathbb{R}\times V\to V$ 的集合，满足结合、交换、分配、零元、逆元等 8 条公理。最常见的例子是 $\mathbb{R}^n = \{(x_1,\dots,x_n)\}$。每个符号都是几何的影子：$+$ 是平行四边形法则；$c\cdot v$ 是把箭头拉长 $c$ 倍（$c<0$ 则反向）。公理不是为了刁难，是为了让定理对「多项式空间」「函数空间」「量子态空间」都同时成立。

为什么美

抽象的胜利在于：你证明一次定理，就同时获得了关于物理、数据、信号、量子态的结论。把表面无关的事物，发现是同一个结构——这就是 Bourbaki 学派和现代数学的核心信条。线代是这个信条最早、最干净的实例：欧式空间的几何 + 列表的计算 + 函数空间的分析，三条河流汇入同一个海。Hardy 会说，这种「把分散统一」的美比公式本身更深。

应用 + 历史与人物

在 AI 里，一切都是向量。一个词在 GPT 里是一根 $\sim$ 12288 维的向量；一张 ImageNet 图片是 150528 维向量；一段语音是时间序列向量。「相似 = 余弦接近，加减 = 语义运算」（king − man + woman ≈ queen）的直觉，全部靠向量空间的代数。物理上量子态是 Hilbert 空间（无穷维向量空间）里的单位向量，叠加 = 向量加法。

历史脉络：Hamilton 1843 年发明四元数（带乘法的"四维向量"），Grassmann 1844 年《Ausdehnungslehre》引入更一般的"延展量"——惊人地超前，几乎没人看懂，被埋没了半个世纪。Gibbs 和 Heaviside 在 1880 年代把这套东西整理成现代向量分析，物理学家才用上。抽象的"向量空间"定义则要到 1888 年 Peano 才首次写下，1920 年代 Weyl 推广，逐渐成为现代数学的通用语言。

一句话精华：向量不是箭头，也不是列表——而是「能加能数乘」这件事本身。

思考题

把所有 3 次以下的多项式 $a + bx + cx^2 + dx^3$ 看成一个向量空间。它的「维度」是多少？它的「自然基」是什么？你能找到一个 线性变换（保加法保数乘的映射），它在这个空间上做的事相当于 $f \mapsto f'$（求导）吗？写出它在 $\{1, x, x^2, x^3\}$ 这组基下的矩阵——你会发现求导，是一个矩阵。

矩阵 = 线性变换

Matrix as Linear Transformation · 几何 / 代数

Linear Map

直觉版

把矩阵当作"一堆数字的方阵"，是中学的灾难。换个看法：矩阵是一个对空间施加的动作。这个动作把整个 $\mathbb{R}^2$（或 $\mathbb{R}^n$）按某种规则搬动，但有两条规则不许破：（1）原点不动；（2）所有原本平行、等距的网格线，搬完之后还是 平行的、等距的直线——不能掰弯。满足这两条的所有可能动作，就是「线性变换」，而每一个这样的动作，可以用一个矩阵记录下来。

记录方法极其简单：把基向量 $\hat{i}=(1,0)$ 搬到哪儿，写第一列；把 $\hat{j}=(0,1)$ 搬到哪儿，写第二列。矩阵的列，是基向量的去向。一旦你这样看，矩阵乘以向量 $M\mathbf{v}$ 不再是公式——它在问："$\mathbf{v}$ 这个箭头，按照 $M$ 这个动作搬过去，落在哪？"答案就是 $\mathbf{v}$ 的坐标作为权重，对 $M$ 的列做线性组合。所有矩阵乘法的公式都从这一句话长出来。

正式定义

一个映射 $T: \mathbb{R}^n \to \mathbb{R}^m$ 是线性的，当且仅当对所有 $\mathbf{u},\mathbf{v}$ 与标量 $c$，$T(\mathbf{u}+\mathbf{v}) = T(\mathbf{u}) + T(\mathbf{v})$ 且 $T(c\mathbf{v}) = cT(\mathbf{v})$。一旦给定 $\mathbb{R}^n$ 的标准基 $\{e_1,\dots,e_n\}$，整个 $T$ 由这 $n$ 个值 $T(e_j)$ 完全决定——把它们摞成一个 $m\times n$ 矩阵的列，就是 $T$ 的矩阵表示。两个线性变换的复合，对应矩阵乘法：这就是为什么 $AB$ 的列 = $A$ 作用在 $B$ 的每一列上。

为什么美

这一个翻译——"矩阵 = 动作"——把代数和几何彻底打通。抽象的乘法变成动作的复合。$AB \neq BA$ 不再神秘：先旋转再剪切，和先剪切再旋转，结果当然不一样。"逆矩阵" 不再是公式，是 "撤销动作"。"奇异 / 行列式为零" 不再是判别条件，是 "动作把空间压扁成了更低维" ——信息丢失，无法逆向。线性代数的几乎每个看似抽象的概念，都有一个干净的几何对应。这是数学少有的"代数 ↔ 几何"完美对偶。

应用 + 历史与人物

3D 图形流水线：每个游戏帧都是一连串 4×4 矩阵把模型坐标变到世界，再变到相机，再投影到屏幕。整个深度神经网络可以重述为：一连串"矩阵乘 + 非线性"的复合——每一层 $\mathbf{h} = \sigma(W\mathbf{x}+\mathbf{b})$ 中的 $W$ 都在描述"这一层把输入空间怎样搬"。Transformer 的 attention 也是矩阵乘 ($QK^T$ 给注意力分布，再左乘 $V$)。AlphaFold 把蛋白质结构问题翻译成几何变换问题。

历史：Arthur Cayley 1858 年首次系统化"矩阵代数"，他把矩阵当成一个独立对象研究（不只是方程组的速记）。James Sylvester 取了 "matrix" 这个名字（拉丁语"子宫"，因为它"孕育"行列式）。但矩阵思想的革命爆发在 1925 年——Heisenberg 在赫尔戈兰岛养病时发明了量子力学的第一个版本"矩阵力学"，他甚至不知道自己写的是矩阵，是 Born 和 Jordan 帮他识别出来的。从此矩阵不只是数学工具，是宇宙的语言。

一句话精华：矩阵不是数字方阵，是空间的动作；它的列，是基向量的去向。

思考题

把 $\mathbb{R}^2$ 旋转 30°，对应一个矩阵 $R$。再旋转 30°，对应 $R$ 再作用一次，即 $R^2$。如果你把这两步合并成一次旋转 60°，对应的矩阵直接就是 $R^2$。请用 $R^2$ 的计算（不查表）推导出 $\cos 60°$ 和 $\sin 60°$。你会发现：三角恒等式 $\cos(2\theta) = \cos^2\theta - \sin^2\theta$ 不过是矩阵乘法的对角线元素。三角学的核心定理，原来是线代的副产品。

特征向量 = 不变方向

Eigenvectors & Eigenvalues · 谱论

Spectral Theory

直觉版

一个矩阵 $A$ 作用在大多数向量上，会把它既拉长又旋转——箭头的方向变了。但对极少数特殊方向上的向量，$A$ 只把它拉长（或压缩，或反向），方向不变。这些方向就是 $A$ 的 特征向量，那个拉伸倍数就是对应的 特征值。

想象你拿着一团橡皮泥，朝某个方向挤压。整个橡皮泥被挤扁，但 挤压方向上的那条轴 和 垂直方向的那两条轴——这三个方向上的点只是离原点近了或远了，它们没"歪"过。这三条轴就是这个挤压动作的特征方向。任何线性变换，都有这样几条"它自己最舒服"的轴；找到它们，就是看穿了这个变换的本质。3Blue1Brown 的话："特征向量是一个变换的本来面目（the intrinsic face）。"

正式定义

设方阵 $A \in \mathbb{R}^{n\times n}$。如果存在非零向量 $\mathbf{v}$ 和标量 $\lambda$ 使

$$A\mathbf{v} = \lambda \mathbf{v}$$

则 $\mathbf{v}$ 是 $A$ 的 特征向量，$\lambda$ 是对应的 特征值。每个符号都直接对应几何：左边 $A\mathbf{v}$ 是"把 $\mathbf{v}$ 经过变换 $A$ 搬走"，右边 $\lambda\mathbf{v}$ 是"只是把 $\mathbf{v}$ 沿原方向拉伸 $\lambda$ 倍"。两边相等 = 这条方向被变换 $A$ "尊重"。求特征值的标准方法是解 $\det(A-\lambda I)=0$——这个方程为什么成立？因为它在问："有没有非零向量被 $A-\lambda I$ 压成零？"——也就是"有没有方向 $A$ 作用 $=\lambda$ 倍的拉伸？"

为什么美

特征向量揭示一个深刻的事实：每个线性变换都自带一组"它自己的"坐标。如果你换到这组坐标系（特征基）下看这个变换，矩阵立刻变成对角阵——所有看似复杂的耦合消失，只剩 $n$ 个独立的拉伸。这就是 "对角化" (diagonalization)。它是把一个高维耦合系统拆成若干一维独立系统的标准工具，是物理学家梦寐以求的"主轴 / 法模" (normal modes)。

更美的是：这条原理把矩阵（代数对象）、动作的内在轴（几何对象）、振动的固有频率（物理对象）、稳态分布（概率对象）一次绑定。同一个数学对象，看出去是几个学科。

应用 + 历史与人物

PageRank（Google 1998 那篇论文）的核心：把整个互联网建模成一个巨大的转移矩阵 $M$，最大特征值对应的特征向量，就是每个网页的"重要性"得分。PCA（主成分分析）：对数据协方差矩阵求特征向量，得到数据方差最大的方向——这是降维和可视化的基石。量子力学：哈密顿算符 $\hat{H}$ 的特征值是允许的能量，特征向量是能量本征态——薛定谔方程 $\hat{H}\psi = E\psi$ 在结构上就是一个特征值问题。振动分析：建筑、桥梁、飞机机翼的固有频率，是质量矩阵和刚度矩阵的广义特征值。Tacoma Narrows Bridge 1940 年的著名垮塌就是某个特征模式被风激发。

历史：Euler 1750 年代研究刚体转动惯量时已经隐含使用了主轴思想。Cauchy 1829 年在二次曲面分类工作中正式给出特征方程。"Eigenvalue" 这个混合词来自德语 Eigenwert（自己的值），由 Hilbert 在 1904 年关于积分方程的工作中推广开。20 世纪谱论的发展（Hilbert, von Neumann）成为量子力学的数学基础——一个数学概念为一门新物理学准备好了语言。

一句话精华：每个变换都有它自己最舒服的几条轴；找到这些轴，复杂的动作就分解成几个独立的拉伸。

思考题

$\mathbb{R}^2$ 上的纯旋转矩阵（比如旋转 90°）有实特征值吗？凭直觉先想：旋转把每根向量都旋转了，没有任何方向被保留，所以似乎不该有。但代数上 $\det(A-\lambda I)=0$ 永远有解（在复数域里）。这两件事如何调和？这指向了一个深刻的事实——为什么量子力学非用复数不可。

行列式 = 面积/体积的放大倍数

Determinant as Volume Scale Factor · 几何 / 代数

Determinant

直觉版

取一个单位正方形（边长 1，面积 1）。用矩阵 $A$ 作用一下，它会被变成一个平行四边形。这个平行四边形的有向面积，就是 $\det A$。在 $\mathbb{R}^3$ 里，单位立方体变成平行六面体，那个体积就是 $\det A$。在 $\mathbb{R}^n$ 里同理。一个看似复杂的"行列式公式"（带正负号、按行/列展开），背后是这一句几何事实。

负号是怎么来的？如果变换翻转了空间的取向（像照镜子，左手变右手），行列式带负号。$\det A = 0$ 呢？说明单位正方形被压扁成了线段甚至点——动作把空间塌掉了一维（或更多），不可逆。这就是"行列式为零 ⇔ 矩阵奇异 ⇔ 方程组没有唯一解"背后的几何灵魂：信息丢了，没法还原。

正式定义

对 $2\times 2$ 矩阵 $A = \begin{pmatrix}a & b \\ c & d\end{pmatrix}$，

$$\det A = ad - bc$$

这就是平行四边形面积的标准计算：$ad$ 是 "底 $\times$ 高" 的天真估计，$bc$ 是 "歪掉" 部分需要扣掉的修正——把两根列向量 $(a,c)$ 和 $(b,d)$ 张成的图形，准确切出面积。一般 $n\times n$ 行列式可用 Leibniz 公式 $\det A = \sum_\sigma \text{sgn}(\sigma) \prod_i a_{i,\sigma(i)}$ 定义，但唯一应该记住的几何刻画是：它是"$A$ 把单位 $n$ 维体积放大了多少倍（带符号）"。所有性质（$\det(AB)=\det A \det B$, $\det A^{-1}=1/\det A$, $\det I = 1$）都是这句几何陈述的逻辑后果——两次动作的总放大 = 各自放大相乘；撤销 = 倒数；不动 = 不变。

为什么美

一个 $n^2$ 个数字的矩阵，被压缩成一个标量，这个标量却抓住了变换最本质的"是否可逆 / 几何信息容量"。从 $n^2$ 个自由度凝结成 1 个，却恰好是那个关键的标量——这种"压缩到极致还保住灵魂"的美感，是数学少有的奇迹。

更深一层：行列式是唯一满足三条简单几何性质（多重线性、交错性、$\det I = 1$）的函数。这种"由几条朴素公理就唯一决定一个复杂公式"的现象，是 Bourbaki 风格的胜利。Lockhart 在《数学家的叹息》里用类似例子说明："数学不是发明的，是被一个迫不得已的逻辑挤出来的。"

应用 + 历史与人物

多元积分换元公式 $\int f(\mathbf{y})\,d\mathbf{y} = \int f(\varphi(\mathbf{x})) |\det J_\varphi|\,d\mathbf{x}$ 中的雅可比行列式就是局部"小体积的放大倍数"——这是把单变量微积分 $du = u'(x)dx$ 推广到多元的关键。在机器学习里，归一化流（Normalizing Flows, RealNVP/Glow）通过精心设计的可逆变换，用雅可比行列式来精确追踪概率密度——生成模型的概率守恒，本质是行列式记账。物理学的 路径积分 里 Faddeev–Popov 行列式处理规范不变性。在数值线代里，行列式作为奇异性检测器是危险的（数值不稳定），实际工程更常用条件数和奇异值——这也是一个值得记住的"美丽公式 ≠ 工程首选"的诚实提醒。

历史：行列式实际上早于矩阵——日本数学家关孝和（Seki Takakazu）1683 年在《解伏题之法》中独立用到了 3×3 行列式；同年 Leibniz 在一封信里也提到了它，用来判断线性方程组何时有解。Cauchy 1812 年系统化了"determinant"这个术语和现代理论。讽刺的是，矩阵作为独立对象（Cayley 1858）反而晚了 170 年——人们最早关心的是"方程组解不解得出来"这个标量判据，"矩阵作为整体"是后来的抽象。

一句话精华：行列式不是公式，是"动作把空间体积放大了多少倍"——压扁成 0 就是不可逆。

3Blue1Brown 视角

"如果你只能从行列式记住一件事——把它想成 $A$ 对面积/体积做了什么。$\det A = 7$ 意味着任何区域被 $A$ 作用后面积变成 7 倍；$\det A = -3$ 意味着面积变 3 倍且空间被翻转；$\det A = 0$ 意味着维度塌陷。" — Grant Sanderson

思考题

如果一个 $3\times 3$ 矩阵 $A$ 的三列两两正交（垂直），且每列都是单位长度（这种矩阵叫正交矩阵），凭几何想象它的 $\det A$ 必须等于多少？为什么只可能是 $\pm 1$？这两个数值对应两种"动作"——你能给它们各起一个直观名字吗？（提示：一个保持取向，一个翻转。）

深入资源

3Blue1Brown · Essence of Linear Algebra（15 集，几何视角的圣经，强烈推荐先看完再读任何教材）
Sheldon Axler · Linear Algebra Done Right（坚持"无行列式"路线建立线代，到第 10 章才引入行列式——一个反传统但极美的教学实验）
Gilbert Strang · Introduction to Linear Algebra + MIT OCW 18.06（最受欢迎的本科课程，应用导向）
Carl Meyer · Matrix Analysis and Applied Linear Algebra（工程派的圣经，PageRank、PCA 等应用一应俱全）
Page, Brin, Motwani, Winograd (1999) · The PageRank Citation Ranking（特征向量如何让 Google 价值万亿）
Heisenberg (1925) · Über quantentheoretische Umdeutung kinematischer und mechanischer Beziehungen（赫尔戈兰岛上的矩阵力学诞生论文）
Terence Tao · What's new 博客中关于矩阵分析、随机矩阵的多篇笔记
Tristan Needham · Visual Differential Geometry and Forms（几何视角延伸到微分形式，行列式作为体积元）

深入思考

1. 为什么神经网络需要"非线性"？如果删掉所有激活函数会怎样？

任意多层的纯线性层叠加 $W_n W_{n-1} \cdots W_1 \mathbf{x}$ 等价于一个矩阵 $W = W_n\cdots W_1$ 作用一次——再深也只是一个线性变换。线性变换的能力是固定的：它最多把空间做一次有限维的拉伸/旋转/投影，无法表达任何"弯曲"的决策边界。激活函数（ReLU、sigmoid）的作用是在每一层之间引入一次"折叠"，让叠加层之后获得任意复杂的非线性表达力。所以"深"之所以有意义，是因为线性 + 非线性的交替组合——纯矩阵无法表达世界。

2. 量子力学为什么用 Hilbert 空间（复数向量空间）而非实数？

实矩阵的旋转没有实特征值。但物理上"测量结果"必须是实数，且观测算符在叠加态上的演化必须可以表示成"沿某些方向的拉伸"——这要求特征值结构存在。厄米矩阵（复矩阵且 $A^\dagger = A$）的特征值恰好都是实数，特征向量是正交的——完美匹配"可测量物理量"的需求。同时复数的相位记录干涉信息（双缝实验的核心）。所以复数不是为了方便，是物理结构强行选择的语言——一个"非线性代数 ↔ 物理"的深刻案例。

3. PageRank 为什么能用？这件事和"民主投票"有何深层联系？

PageRank 假设一个用户随机点链接游走，问稳态下停留在每页的概率。这是一个 Markov 链，稳态分布 = 转移矩阵最大特征值（=1）对应的特征向量。它的美在于递归定义的自洽性："重要页面 = 被重要页面链接的页面"——这听起来像循环定义，但特征向量方程 $M\mathbf{v}=\mathbf{v}$ 恰好把"循环"翻译成"不动点"，让它有了精确解。这种思想在民主选举中其实也出现过——Arrow 不可能性定理某种意义上是"全员排序聚合"的特征值约束。任何"递归声望"系统（学术引用、社交影响、加密货币验证）背后都有同样的数学骨架。

4. 行列式在高维（比如 100 维）还有几何意义吗？

有，但物理直觉失效。100 维"体积"是一个完全合法的代数概念——它是 100 个向量张成的 100-平行体在 Lebesgue 测度下的度量。在概率论里，多元高斯分布的密度公式里出现 $\frac{1}{\sqrt{(2\pi)^n \det\Sigma}}$——这个"高维椭球体积"主导了 ML 中的不确定性建模、扩散模型的去噪、变分推断中的 ELBO。但有一个反直觉的事实：高维下"几乎所有"随机矩阵的行列式急剧趋于 0 或 ∞（Marchenko–Pastur 现象），这是为什么 ML 中通常用对数行列式 $\log\det$ 而不是直接用 $\det$——一个数值稳定性问题反映了高维几何的奇异性。

5. 是否存在"非线性代数"？为什么我们对它知之甚少？

有——叫"非线性代数"（Nonlinear Algebra, Sturmfels 等人推动），研究多项式方程组、张量分解、代数几何在数据科学中的应用。但它比线性代数难得多：线性代数的灵魂是"叠加 + 缩放 → 一切由基决定"，这种结构让我们能用 $n^2$ 个数完整描述任何线性变换。非线性世界没有这种紧凑表达——$n$ 维上的二次型已经有 $\binom{n+1}{2}$ 个自由度，更高次爆炸。这就是为什么 ML 选择"线性 + 简单非线性（ReLU）+ 大量层"这条路：用大量简单结构组合，比用少量复杂结构容易优化和分析。整个深度学习是一场"我们只会用线性代数，就用海量的它"的工程胜利。