Day 4 · 2026.05.27

线性代数核心

The Essence of Linear Algebra — 把数字看成几何,把矩阵看成动作
"There are two kinds of people in the world: those who think of matrices as arrays of numbers, and those who think of them as linear transformations. The second kind have all the fun." — paraphrased after Sheldon Axler, Linear Algebra Done Right

向量 = 列表,也是箭头,也是抽象

Vector · 线性代数 / 几何
Vector Space
直觉版

同一只向量,物理学家、程序员、数学家眼里是三件不同的东西。物理学家 看到一支带方向的箭头:力、速度、位移。程序员 看到一个数字列表:[2, 1.3, -0.7],一行数据、一张图片的像素、一个 word embedding。数学家 干脆把这两种具体说法扔掉,问:「能加,能数乘,那就是向量」——只要你的对象能 叠加缩放,并且这两种操作满足几条朴素的规则,它就活在一个「向量空间」里。多项式可以是向量,函数可以是向量,量子态可以是向量。

3Blue1Brown 把这三层视角的相遇说成线性代数最重要的一件事:「箭头 ↔ 列表」的字典是几何与计算之间的桥。你写一个 numpy 数组,背后是几何对象;你画一支箭头,背后是一组坐标。线代的所有公式,本质都在两边翻译。

v 几何:箭头 3 −3.5 代数:列表 3·sin(x) + x² − 1 抽象:能加能数乘
正式定义

一个 向量空间 $V$(域 $\mathbb{R}$ 上)是带两个运算 ${+}: V\times V\to V$、${\cdot}: \mathbb{R}\times V\to V$ 的集合,满足结合、交换、分配、零元、逆元等 8 条公理。最常见的例子是 $\mathbb{R}^n = \{(x_1,\dots,x_n)\}$。每个符号都是几何的影子:$+$ 是平行四边形法则$c\cdot v$ 是把箭头拉长 $c$ 倍($c<0$ 则反向)。公理不是为了刁难,是为了让定理对「多项式空间」「函数空间」「量子态空间」都同时成立。

为什么美

抽象的胜利在于:你证明一次定理,就同时获得了关于物理、数据、信号、量子态的结论。把表面无关的事物,发现是同一个结构——这就是 Bourbaki 学派和现代数学的核心信条。线代是这个信条最早、最干净的实例:欧式空间的几何 + 列表的计算 + 函数空间的分析,三条河流汇入同一个海。Hardy 会说,这种「把分散统一」的美比公式本身更深。

应用 + 历史与人物

在 AI 里,一切都是向量。一个词在 GPT 里是一根 $\sim$ 12288 维的向量;一张 ImageNet 图片是 150528 维向量;一段语音是时间序列向量。「相似 = 余弦接近,加减 = 语义运算」(king − man + woman ≈ queen)的直觉,全部靠向量空间的代数。物理上量子态是 Hilbert 空间(无穷维向量空间)里的单位向量,叠加 = 向量加法。

历史脉络:Hamilton 1843 年发明四元数(带乘法的"四维向量"),Grassmann 1844 年《Ausdehnungslehre》引入更一般的"延展量"——惊人地超前,几乎没人看懂,被埋没了半个世纪。Gibbs 和 Heaviside 在 1880 年代把这套东西整理成现代向量分析,物理学家才用上。抽象的"向量空间"定义则要到 1888 年 Peano 才首次写下,1920 年代 Weyl 推广,逐渐成为现代数学的通用语言。

一句话精华:向量不是箭头,也不是列表——而是「能加能数乘」这件事本身。
思考题
把所有 3 次以下的多项式 $a + bx + cx^2 + dx^3$ 看成一个向量空间。它的「维度」是多少?它的「自然基」是什么?你能找到一个 线性变换(保加法保数乘的映射),它在这个空间上做的事相当于 $f \mapsto f'$(求导)吗?写出它在 $\{1, x, x^2, x^3\}$ 这组基下的矩阵——你会发现求导, 一个矩阵。

矩阵 = 线性变换

Matrix as Linear Transformation · 几何 / 代数
Linear Map
直觉版

把矩阵当作"一堆数字的方阵",是中学的灾难。换个看法:矩阵是一个对空间施加的动作。这个动作把整个 $\mathbb{R}^2$(或 $\mathbb{R}^n$)按某种规则搬动,但有两条规则不许破:(1)原点不动;(2)所有原本平行、等距的网格线,搬完之后还是 平行的、等距的直线——不能掰弯。满足这两条的所有可能动作,就是「线性变换」,而每一个这样的动作,可以用一个矩阵记录下来。

记录方法极其简单:把基向量 $\hat{i}=(1,0)$ 搬到哪儿,写第一列;把 $\hat{j}=(0,1)$ 搬到哪儿,写第二列。矩阵的列,是基向量的去向。一旦你这样看,矩阵乘以向量 $M\mathbf{v}$ 不再是公式——它在问:"$\mathbf{v}$ 这个箭头,按照 $M$ 这个动作搬过去,落在哪?"答案就是 $\mathbf{v}$ 的坐标作为权重,对 $M$ 的列做线性组合。所有矩阵乘法的公式都从这一句话长出来。

î ĵ M = [1 1] [0 1] 剪切 Mî=(1,0) Mĵ=(1,1)
正式定义

一个映射 $T: \mathbb{R}^n \to \mathbb{R}^m$ 是 线性 的,当且仅当对所有 $\mathbf{u},\mathbf{v}$ 与标量 $c$,$T(\mathbf{u}+\mathbf{v}) = T(\mathbf{u}) + T(\mathbf{v})$ 且 $T(c\mathbf{v}) = cT(\mathbf{v})$。一旦给定 $\mathbb{R}^n$ 的标准基 $\{e_1,\dots,e_n\}$,整个 $T$ 由这 $n$ 个值 $T(e_j)$ 完全决定——把它们摞成一个 $m\times n$ 矩阵的列,就是 $T$ 的矩阵表示。两个线性变换的复合,对应矩阵乘法:这就是为什么 $AB$ 的列 = $A$ 作用在 $B$ 的每一列上。

为什么美

这一个翻译——"矩阵 = 动作"——把代数和几何彻底打通。抽象的乘法变成动作的复合。$AB \neq BA$ 不再神秘:先旋转再剪切,和先剪切再旋转,结果当然不一样。"逆矩阵" 不再是公式,是 "撤销动作"。"奇异 / 行列式为零" 不再是判别条件,是 "动作把空间压扁成了更低维" ——信息丢失,无法逆向。线性代数的几乎每个看似抽象的概念,都有一个干净的几何对应。这是数学少有的"代数 ↔ 几何"完美对偶。

应用 + 历史与人物

3D 图形流水线:每个游戏帧都是一连串 4×4 矩阵把模型坐标变到世界,再变到相机,再投影到屏幕。整个深度神经网络可以重述为:一连串"矩阵乘 + 非线性"的复合——每一层 $\mathbf{h} = \sigma(W\mathbf{x}+\mathbf{b})$ 中的 $W$ 都在描述"这一层把输入空间怎样搬"。Transformer 的 attention 也是矩阵乘 ($QK^T$ 给注意力分布,再左乘 $V$)。AlphaFold 把蛋白质结构问题翻译成几何变换问题。

历史:Arthur Cayley 1858 年首次系统化"矩阵代数",他把矩阵当成一个独立对象研究(不只是方程组的速记)。James Sylvester 取了 "matrix" 这个名字(拉丁语"子宫",因为它"孕育"行列式)。但矩阵思想的革命爆发在 1925 年——Heisenberg 在赫尔戈兰岛养病时发明了量子力学的第一个版本"矩阵力学",他甚至不知道自己写的是矩阵,是 Born 和 Jordan 帮他识别出来的。从此矩阵不只是数学工具,是宇宙的语言。

一句话精华:矩阵不是数字方阵,是空间的动作;它的列,是基向量的去向。
思考题
把 $\mathbb{R}^2$ 旋转 30°,对应一个矩阵 $R$。再旋转 30°,对应 $R$ 再作用一次,即 $R^2$。如果你把这两步合并成一次旋转 60°,对应的矩阵直接就是 $R^2$。请用 $R^2$ 的计算(不查表)推导出 $\cos 60°$ 和 $\sin 60°$。你会发现:三角恒等式 $\cos(2\theta) = \cos^2\theta - \sin^2\theta$ 不过是矩阵乘法的对角线元素。三角学的核心定理,原来是线代的副产品。

特征向量 = 不变方向

Eigenvectors & Eigenvalues · 谱论
Spectral Theory
直觉版

一个矩阵 $A$ 作用在大多数向量上,会把它既拉长又旋转——箭头的方向变了。但对极少数特殊方向上的向量,$A$ 只把它拉长(或压缩,或反向),方向不变。这些方向就是 $A$ 的 特征向量,那个拉伸倍数就是对应的 特征值

想象你拿着一团橡皮泥,朝某个方向挤压。整个橡皮泥被挤扁,但 挤压方向上的那条轴垂直方向的那两条轴——这三个方向上的点只是离原点近了或远了,它们没"歪"过。这三条轴就是这个挤压动作的特征方向。任何线性变换,都有这样几条"它自己最舒服"的轴;找到它们,就是看穿了这个变换的本质。3Blue1Brown 的话:"特征向量是一个变换的本来面目(the intrinsic face)。"

Av=2v Aw=0.5w 普通向量:方向变了 A = diag(2, 0.5) 的两根不变轴
正式定义

设方阵 $A \in \mathbb{R}^{n\times n}$。如果存在非零向量 $\mathbf{v}$ 和标量 $\lambda$ 使

$$A\mathbf{v} = \lambda \mathbf{v}$$

则 $\mathbf{v}$ 是 $A$ 的 特征向量,$\lambda$ 是对应的 特征值。每个符号都直接对应几何:左边 $A\mathbf{v}$ 是"把 $\mathbf{v}$ 经过变换 $A$ 搬走",右边 $\lambda\mathbf{v}$ 是"只是把 $\mathbf{v}$ 沿原方向拉伸 $\lambda$ 倍"。两边相等 = 这条方向被变换 $A$ "尊重"。求特征值的标准方法是解 $\det(A-\lambda I)=0$——这个方程为什么成立?因为它在问:"有没有非零向量被 $A-\lambda I$ 压成零?"——也就是"有没有方向 $A$ 作用 $=\lambda$ 倍的拉伸?"

为什么美

特征向量揭示一个深刻的事实:每个线性变换都自带一组"它自己的"坐标。如果你换到这组坐标系(特征基)下看这个变换,矩阵立刻变成对角阵——所有看似复杂的耦合消失,只剩 $n$ 个独立的拉伸。这就是 "对角化" (diagonalization)。它是把一个高维耦合系统拆成若干一维独立系统的标准工具,是物理学家梦寐以求的"主轴 / 法模" (normal modes)。

更美的是:这条原理把矩阵(代数对象)、动作的内在轴(几何对象)、振动的固有频率(物理对象)、稳态分布(概率对象)一次绑定。同一个数学对象,看出去是几个学科。

应用 + 历史与人物

PageRank(Google 1998 那篇论文)的核心:把整个互联网建模成一个巨大的转移矩阵 $M$,最大特征值对应的特征向量,就是每个网页的"重要性"得分。PCA(主成分分析):对数据协方差矩阵求特征向量,得到数据方差最大的方向——这是降维和可视化的基石。量子力学:哈密顿算符 $\hat{H}$ 的特征值是允许的能量,特征向量是能量本征态——薛定谔方程 $\hat{H}\psi = E\psi$ 在结构上就是一个特征值问题。振动分析:建筑、桥梁、飞机机翼的固有频率,是质量矩阵和刚度矩阵的广义特征值。Tacoma Narrows Bridge 1940 年的著名垮塌就是某个特征模式被风激发。

历史:Euler 1750 年代研究刚体转动惯量时已经隐含使用了主轴思想。Cauchy 1829 年在二次曲面分类工作中正式给出特征方程。"Eigenvalue" 这个混合词来自德语 Eigenwert(自己的值),由 Hilbert 在 1904 年关于积分方程的工作中推广开。20 世纪谱论的发展(Hilbert, von Neumann)成为量子力学的数学基础——一个数学概念为一门新物理学准备好了语言。

一句话精华:每个变换都有它自己最舒服的几条轴;找到这些轴,复杂的动作就分解成几个独立的拉伸。
思考题
$\mathbb{R}^2$ 上的纯旋转矩阵(比如旋转 90°)有 特征值吗?凭直觉先想:旋转把每根向量都旋转了,没有任何方向被保留,所以似乎不该有。但代数上 $\det(A-\lambda I)=0$ 永远有解(在复数域里)。这两件事如何调和?这指向了一个深刻的事实——为什么量子力学非用复数不可

行列式 = 面积/体积的放大倍数

Determinant as Volume Scale Factor · 几何 / 代数
Determinant
直觉版

取一个单位正方形(边长 1,面积 1)。用矩阵 $A$ 作用一下,它会被变成一个平行四边形。这个平行四边形的有向面积,就是 $\det A$。在 $\mathbb{R}^3$ 里,单位立方体变成平行六面体,那个体积就是 $\det A$。在 $\mathbb{R}^n$ 里同理。一个看似复杂的"行列式公式"(带正负号、按行/列展开),背后是这一句几何事实。

负号是怎么来的?如果变换翻转了空间的取向(像照镜子,左手变右手),行列式带负号。$\det A = 0$ 呢?说明单位正方形被压扁成了线段甚至点——动作把空间塌掉了一维(或更多),不可逆。这就是"行列式为零 ⇔ 矩阵奇异 ⇔ 方程组没有唯一解"背后的几何灵魂:信息丢了,没法还原。

面积 = 1 单位正方形 → A [3 1] [0 2] 面积 = 6 det A = 6 面积 = 0 det = 0(塌掉)
正式定义

对 $2\times 2$ 矩阵 $A = \begin{pmatrix}a & b \\ c & d\end{pmatrix}$,

$$\det A = ad - bc$$

这就是平行四边形面积的标准计算:$ad$ 是 "底 $\times$ 高" 的天真估计,$bc$ 是 "歪掉" 部分需要扣掉的修正——把两根列向量 $(a,c)$ 和 $(b,d)$ 张成的图形,准确切出面积。一般 $n\times n$ 行列式可用 Leibniz 公式 $\det A = \sum_\sigma \text{sgn}(\sigma) \prod_i a_{i,\sigma(i)}$ 定义,但唯一应该记住的几何刻画是:它是"$A$ 把单位 $n$ 维体积放大了多少倍(带符号)"。所有性质($\det(AB)=\det A \det B$, $\det A^{-1}=1/\det A$, $\det I = 1$)都是这句几何陈述的逻辑后果——两次动作的总放大 = 各自放大相乘;撤销 = 倒数;不动 = 不变。

为什么美

一个 $n^2$ 个数字的矩阵,被压缩成一个标量,这个标量却抓住了变换最本质的"是否可逆 / 几何信息容量"。从 $n^2$ 个自由度凝结成 1 个,却恰好是那个关键的标量——这种"压缩到极致还保住灵魂"的美感,是数学少有的奇迹。

更深一层:行列式是唯一 满足三条简单几何性质(多重线性、交错性、$\det I = 1$)的函数。这种"由几条朴素公理就唯一决定一个复杂公式"的现象,是 Bourbaki 风格的胜利。Lockhart 在《数学家的叹息》里用类似例子说明:"数学不是发明的,是被一个迫不得已的逻辑挤出来的。"

应用 + 历史与人物

多元积分换元公式 $\int f(\mathbf{y})\,d\mathbf{y} = \int f(\varphi(\mathbf{x})) |\det J_\varphi|\,d\mathbf{x}$ 中的雅可比行列式就是局部"小体积的放大倍数"——这是把单变量微积分 $du = u'(x)dx$ 推广到多元的关键。在机器学习里,归一化流(Normalizing Flows, RealNVP/Glow)通过精心设计的可逆变换,用雅可比行列式来精确追踪概率密度——生成模型的概率守恒,本质是行列式记账。物理学的 路径积分 里 Faddeev–Popov 行列式处理规范不变性。在数值线代里,行列式作为奇异性检测器是危险的(数值不稳定),实际工程更常用条件数和奇异值——这也是一个值得记住的"美丽公式 ≠ 工程首选"的诚实提醒。

历史:行列式实际上 早于 矩阵——日本数学家关孝和(Seki Takakazu)1683 年在《解伏题之法》中独立用到了 3×3 行列式;同年 Leibniz 在一封信里也提到了它,用来判断线性方程组何时有解。Cauchy 1812 年系统化了"determinant"这个术语和现代理论。讽刺的是,矩阵作为独立对象(Cayley 1858)反而晚了 170 年——人们最早关心的是"方程组解不解得出来"这个标量判据,"矩阵作为整体"是后来的抽象。

一句话精华:行列式不是公式,是"动作把空间体积放大了多少倍"——压扁成 0 就是不可逆。
3Blue1Brown 视角
"如果你只能从行列式记住一件事——把它想成 $A$ 对面积/体积做了什么。$\det A = 7$ 意味着任何区域被 $A$ 作用后面积变成 7 倍;$\det A = -3$ 意味着面积变 3 倍且空间被翻转;$\det A = 0$ 意味着维度塌陷。" — Grant Sanderson
思考题
如果一个 $3\times 3$ 矩阵 $A$ 的三列两两正交(垂直),且每列都是单位长度(这种矩阵叫正交矩阵),凭几何想象它的 $\det A$ 必须等于多少?为什么只可能是 $\pm 1$?这两个数值对应两种"动作"——你能给它们各起一个直观名字吗?(提示:一个保持取向,一个翻转。)

深入资源

  • 3Blue1Brown · Essence of Linear Algebra(15 集,几何视角的圣经,强烈推荐先看完再读任何教材)
  • Sheldon Axler · Linear Algebra Done Right(坚持"无行列式"路线建立线代,到第 10 章才引入行列式——一个反传统但极美的教学实验)
  • Gilbert Strang · Introduction to Linear Algebra + MIT OCW 18.06(最受欢迎的本科课程,应用导向)
  • Carl Meyer · Matrix Analysis and Applied Linear Algebra(工程派的圣经,PageRank、PCA 等应用一应俱全)
  • Page, Brin, Motwani, Winograd (1999) · The PageRank Citation Ranking(特征向量如何让 Google 价值万亿)
  • Heisenberg (1925) · Über quantentheoretische Umdeutung kinematischer und mechanischer Beziehungen(赫尔戈兰岛上的矩阵力学诞生论文)
  • Terence Tao · What's new 博客中关于矩阵分析、随机矩阵的多篇笔记
  • Tristan Needham · Visual Differential Geometry and Forms(几何视角延伸到微分形式,行列式作为体积元)

深入思考

1. 为什么神经网络需要"非线性"?如果删掉所有激活函数会怎样?
任意多层的纯线性层叠加 $W_n W_{n-1} \cdots W_1 \mathbf{x}$ 等价于一个矩阵 $W = W_n\cdots W_1$ 作用一次——再深也只是一个线性变换。线性变换的能力是固定的:它最多把空间做一次有限维的拉伸/旋转/投影,无法表达任何"弯曲"的决策边界。激活函数(ReLU、sigmoid)的作用是在每一层之间引入一次"折叠",让叠加层之后获得任意复杂的非线性表达力。所以"深"之所以有意义,是因为线性 + 非线性的交替组合——纯矩阵无法表达世界。
2. 量子力学为什么用 Hilbert 空间(复数向量空间)而非实数?
实矩阵的旋转没有实特征值。但物理上"测量结果"必须是实数,且观测算符在叠加态上的演化必须可以表示成"沿某些方向的拉伸"——这要求特征值结构存在。厄米矩阵(复矩阵且 $A^\dagger = A$)的特征值恰好都是实数,特征向量是正交的——完美匹配"可测量物理量"的需求。同时复数的相位记录干涉信息(双缝实验的核心)。所以复数不是为了方便,是物理结构强行选择的语言——一个"非线性代数 ↔ 物理"的深刻案例。
3. PageRank 为什么能用?这件事和"民主投票"有何深层联系?
PageRank 假设一个用户随机点链接游走,问稳态下停留在每页的概率。这是一个 Markov 链,稳态分布 = 转移矩阵最大特征值(=1)对应的特征向量。它的美在于递归定义的自洽性:"重要页面 = 被重要页面链接的页面"——这听起来像循环定义,但特征向量方程 $M\mathbf{v}=\mathbf{v}$ 恰好把"循环"翻译成"不动点",让它有了精确解。这种思想在民主选举中其实也出现过——Arrow 不可能性定理某种意义上是"全员排序聚合"的特征值约束。任何"递归声望"系统(学术引用、社交影响、加密货币验证)背后都有同样的数学骨架。
4. 行列式在高维(比如 100 维)还有几何意义吗?
有,但物理直觉失效。100 维"体积"是一个完全合法的代数概念——它是 100 个向量张成的 100-平行体在 Lebesgue 测度下的度量。在概率论里,多元高斯分布的密度公式里出现 $\frac{1}{\sqrt{(2\pi)^n \det\Sigma}}$——这个"高维椭球体积"主导了 ML 中的不确定性建模、扩散模型的去噪、变分推断中的 ELBO。但有一个反直觉的事实:高维下"几乎所有"随机矩阵的行列式急剧趋于 0 或 ∞(Marchenko–Pastur 现象),这是为什么 ML 中通常用对数行列式 $\log\det$ 而不是直接用 $\det$——一个数值稳定性问题反映了高维几何的奇异性。
5. 是否存在"非线性代数"?为什么我们对它知之甚少?
有——叫"非线性代数"(Nonlinear Algebra, Sturmfels 等人推动),研究多项式方程组、张量分解、代数几何在数据科学中的应用。但它比线性代数难得多:线性代数的灵魂是"叠加 + 缩放 → 一切由基决定",这种结构让我们能用 $n^2$ 个数完整描述任何线性变换。非线性世界没有这种紧凑表达——$n$ 维上的二次型已经有 $\binom{n+1}{2}$ 个自由度,更高次爆炸。这就是为什么 ML 选择"线性 + 简单非线性(ReLU)+ 大量层"这条路:用大量简单结构组合,比用少量复杂结构容易优化和分析。整个深度学习是一场"我们只会用线性代数,就用海量的它"的工程胜利。