机器学习数学基础

机器学习的核心是数学。本文整理 ML 必备的数学知识，聚焦于实际应用。

概览：数学与 ML 的对应关系

┌─────────────────────────────────────────────────────────────────┐
│                    机器学习数学体系                              │
│                                                                 │
│   线性代数           微积分            概率统计          优化    │
│      │                 │                  │              │      │
│      ▼                 ▼                  ▼              ▼      │
│   数据表示         梯度计算           不确定性        参数学习   │
│   特征变换         反向传播           贝叶斯推断      损失最小化 │
│   降维/PCA         链式法则           分布建模        收敛分析  │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

数学分支	ML 应用
线性代数	数据表示、特征变换、降维、注意力机制
微积分	梯度下降、反向传播、优化
概率统计	贝叶斯推断、分布建模、不确定性估计
优化理论	损失函数、收敛性、正则化

1. 线性代数

1.1 向量与矩阵

向量：有序数列，表示数据点或特征

$x = x_{1} x_{2} ⋮ x_{n} \in R^{n}$

矩阵：二维数组，表示数据集或变换

$A = a_{11} a_{21} ⋮ a_{m 1} a_{12} a_{22} ⋮ a_{m 2} \dots \dots ⋱ \dots a_{1 n} a_{2 n} ⋮ a_{mn} \in R^{m \times n}$

ML 中的应用：

概念	示例
样本	一个向量 $x \in R^{d}$
数据集	矩阵 $X \in R^{n \times d}$ （n 个样本，d 维特征）
权重	矩阵 $W \in R^{d_{o u t} \times d_{in}}$
图像	张量 $(H, W, C)$

1.2 向量运算

点积（内积）：

$a \cdot b = \sum_{i = 1}^{n} a_{i} b_{i} = ∥ a ∥∥ b ∥ cos θ$

ML 应用：

相似度计算（余弦相似度）
神经网络的线性层： $y = w^{T} x + b$

import numpy as np
 
# 点积
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
dot_product = np.dot(a, b)  # 32
 
# 余弦相似度
cos_sim = np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))

范数：向量的”长度”

范数	定义	用途
L1 范数	$∥ x ∥_{1} = \sum_{i} ∣ x_{i} ∣$	稀疏正则化（Lasso）
L2 范数	$∥ x ∥_{2} = \sum_{i} x_{i}^{2}$	权重衰减（Ridge）
L∞ 范数	$∥ x ∥_{\infty} = max_{i} ∣ x_{i} ∣$	对抗样本

1.3 矩阵运算

矩阵乘法：

$(AB)_{ij} = \sum_{k} A_{ik} B_{k j}$

ML 应用：全连接层 $Y = XW + b$

# 矩阵乘法
X = np.random.randn(32, 784)  # 32 个 784 维样本
W = np.random.randn(784, 128)  # 线性变换
Y = X @ W  # (32, 128)

转置：

$(A^{T})_{ij} = A_{j i}$

常用性质：

$(A B)^{T} = B^{T} A^{T}$
$(A^{T})^{T} = A$

1.4 特征值与特征向量

定义：对于方阵 $A$ ，若存在非零向量 $v$ 和标量 $λ$ 使得：

$Av = λ v$

则 $λ$ 是特征值， $v$ 是特征向量。

几何意义：特征向量是变换后方向不变的向量，特征值是拉伸倍数。

ML 应用：

PCA：用协方差矩阵的特征向量做降维
谱聚类：用拉普拉斯矩阵的特征向量

# 特征分解
A = np.array([[3, 1], [1, 3]])
eigenvalues, eigenvectors = np.linalg.eig(A)
# eigenvalues: [4, 2]
# eigenvectors: 每列是一个特征向量

1.5 奇异值分解（SVD）

定义：任意矩阵 $A \in R^{m \times n}$ 可分解为：

$A = UΣV^{T}$

其中：

$U \in R^{m \times m}$ ：左奇异向量（正交）
$Σ \in R^{m \times n}$ ：奇异值（对角，降序）
$V \in R^{n \times n}$ ：右奇异向量（正交）

ML 应用：

降维：保留前 k 个奇异值
推荐系统：矩阵分解
图像压缩

# SVD
A = np.random.randn(100, 50)
U, S, Vt = np.linalg.svd(A, full_matrices=False)
 
# 低秩近似（保留前 10 个奇异值）
k = 10
A_approx = U[:, :k] @ np.diag(S[:k]) @ Vt[:k, :]

1.6 正定矩阵

定义：对于对称矩阵 $A$ ，若对所有非零向量 $x$ ：

$x^{T} Ax > 0$

则 $A$ 是正定的。

判断方法：所有特征值为正

ML 应用：

协方差矩阵（半正定）
核矩阵
凸优化

2. 微积分

2.1 导数与梯度

导数：函数在某点的变化率

$f^{'} (x) = lim_{h \to 0} \frac{f ( x + h ) - f ( x )}{h}$

偏导数：多变量函数对某一变量的导数

$\frac{\partial f}{\partial x _{i}} = lim_{h \to 0} \frac{f ( x _{1} , ... , x _{i} + h , ... , x _{n} ) - f ( x _{1} , ... , x _{i} , ... , x _{n} )}{h}$

梯度：所有偏导数组成的向量

$\nabla f = \frac{\partial f}{\partial x _{1}} \frac{\partial f}{\partial x _{2}} ⋮ \frac{\partial f}{\partial x _{n}}$

几何意义：梯度指向函数增长最快的方向

2.2 常用导数公式

函数	导数
$x^{n}$	$n x^{n - 1}$
$e^{x}$	$e^{x}$
$ln x$	$1/ x$
$sin x$	$cos x$
$cos x$	$- sin x$

激活函数导数：

激活函数	公式	导数
Sigmoid	$σ (x) = \frac{1}{1 + e ^{- x}}$	$σ (x) (1 - σ (x))$
Tanh	$tanh (x) = \frac{e ^{x} - e ^{- x}}{e ^{x} + e ^{- x}}$	$1 - tanh^{2} (x)$
ReLU	$max (0, x)$	${10 x > 0 x \leq 0$
Softmax	$\frac{e ^{x_{i}}}{\sum _{j} e ^{x_{j}}}$	见 Jacobian 矩阵

2.3 链式法则（Chain Rule）

核心：复合函数求导

$\frac{d}{d x} f (g (x)) = f^{'} (g (x)) \cdot g^{'} (x)$

多变量形式：

$\frac{\partial L}{\partial x} = \frac{\partial L}{\partial y} \cdot \frac{\partial y}{\partial x}$

ML 应用：反向传播的数学基础

前向传播: x → h = Wx → a = σ(h) → L = loss(a, y)

反向传播（链式法则）:
∂L/∂W = ∂L/∂a · ∂a/∂h · ∂h/∂W

2.4 雅可比矩阵与海森矩阵

雅可比矩阵：向量值函数的一阶导数

$J = \frac{\partial f _{1}}{\partial x _{1}} ⋮ \frac{\partial f _{m}}{\partial x _{1}} \dots ⋱ \dots \frac{\partial f _{1}}{\partial x _{n}} ⋮ \frac{\partial f _{m}}{\partial x _{n}}$

海森矩阵：二阶导数矩阵

$H = \frac{\partial ^{2} f}{\partial x _{1}^{2}} \frac{\partial ^{2} f}{\partial x _{2} \partial x _{1}} ⋮ \frac{\partial ^{2} f}{\partial x _{1} \partial x _{2}} \frac{\partial ^{2} f}{\partial x _{2}^{2}} ⋮ \dots \dots ⋱$

ML 应用：

雅可比：神经网络层间梯度传播
海森：二阶优化（Newton 法）、曲率分析

2.5 自动微分

核心思想：利用链式法则自动计算梯度

import torch
 
# 定义变量，启用梯度
x = torch.tensor([2.0, 3.0], requires_grad=True)
W = torch.tensor([[1.0, 2.0], [3.0, 4.0]], requires_grad=True)
 
# 前向传播
y = W @ x
loss = y.sum()
 
# 反向传播（自动计算梯度）
loss.backward()
 
print(W.grad)  # ∂loss/∂W
print(x.grad)  # ∂loss/∂x

2.6 矩阵求导（Matrix Calculus）

重要：这是理解线性回归、神经网络梯度推导的核心知识。

基本记号

类型	输入	输出	结果形状
标量对向量	$x \in R^{n}$	$f \in R$	$\nabla f \in R^{n}$
向量对向量	$x \in R^{n}$	$f \in R^{m}$	$J \in R^{m \times n}$ (雅可比)
标量对矩阵	$X \in R^{m \times n}$	$f \in R$	$\nabla f \in R^{m \times n}$

常用公式（标量对向量）

函数 $f$	梯度 $\frac{\partial f}{\partial x}$	说明
$a^{T} x$	$a$	线性函数
$x^{T} a$	$a$	同上（标量）
$x^{T} x$	$2 x$	L2 范数平方
$x^{T} Ax$	$(A + A^{T}) x$	二次型
$∥ Ax - b ∥^{2}$	$2 A^{T} (Ax - b)$	最小二乘

向量对向量（雅可比矩阵）

函数 $f$	雅可比 $\frac{\partial f}{\partial x}$
$Ax$	$A$
$x$	$I$

线性回归推导示例

损失函数： $L = \frac{1}{m} ∥ y - Xw ∥^{2}$

展开：

$L = \frac{1}{m} (y - Xw)^{T} (y - Xw)$

$= \frac{1}{m} (y^{T} y - 2 w^{T} X^{T} y + w^{T} X^{T} Xw)$

求梯度（利用公式）：

$\frac{\partial L}{\partial w} = \frac{1}{m} (- 2 X^{T} y + 2 X^{T} Xw) = \frac{2}{m} X^{T} (Xw - y)$

令梯度为零，得正规方程：

$X^{T} Xw = X^{T} y$

$w^{*} = (X^{T} X)^{- 1} X^{T} y$

记忆技巧

维度匹配：结果形状必须与被求导变量相同
转置规则： $(A B)^{T} = B^{T} A^{T}$
链式法则： $\frac{\partial L}{\partial x} = \frac{\partial L}{\partial y} \cdot \frac{\partial y}{\partial x}$
标量技巧：标量的转置等于自身， $a^{T} x = x^{T} a$

参考资源

The Matrix Cookbook - 矩阵求导公式大全
Matrix Calculus (Wikipedia)

3. 概率与统计

3.1 基本概念

概率：事件发生的可能性 $P (A) \in [0, 1]$

条件概率：

$P (A ∣ B) = \frac{P ( A \cap B )}{P ( B )}$

独立性： $P (A \cap B) = P (A) \cdot P (B)$

贝叶斯定理：

$P (A ∣ B) = \frac{P ( B ∣ A ) \cdot P ( A )}{P ( B )}$

ML 解释：

$P (模型 ∣ 数据) = \frac{P ( 数据 ∣ 模型 ) \cdot P ( 模型 )}{P ( 数据 )}$

术语	含义
$P (模型)$	先验（Prior）
$P (数据 ∣ 模型)$	似然（Likelihood）
$P (模型 ∣ 数据)$	后验（Posterior）

3.2 期望与方差

期望（均值）：

$E [X] = \sum_{x} x \cdot P (X = x) 或 E [X] = \int x \cdot p (x) d x$

方差：

$Var (X) = E [(X - E [X])^{2}] = E [X^{2}] - (E [X])^{2}$

标准差： $σ = Var (X)$

协方差：

$Cov (X, Y) = E [(X - E [X]) (Y - E [Y])]$

相关系数：

$ρ_{X Y} = \frac{Cov ( X , Y )}{σ _{X} σ _{Y}}$

3.3 常见概率分布

离散分布

分布	参数	概率质量函数	用途
伯努利	$p$	$P (X = 1) = p$	二分类
二项	$n, p$	$(k n) p^{k} (1 - p)^{n - k}$	n 次实验中成功次数
多项	$n, p_{1} ... p_{k}$	$\frac{n !}{x _{1} ! ... x _{k} !} \prod p_{i}^{x_{i}}$	多分类
泊松	$λ$	$\frac{λ ^{k} e ^{- λ}}{k !}$	计数数据

连续分布

分布	参数	概率密度函数	用途
均匀	$a, b$	$\frac{1}{b - a}$	随机初始化
正态（高斯）	$μ, σ^{2}$	$\frac{1}{2 π σ ^{2}} e^{- \frac{( x - μ ) ^{2}}{2 σ ^{2}}}$	连续值建模
指数	$λ$	$λ e^{- λ x}$	时间间隔

高斯分布的重要性：

中心极限定理：大量独立随机变量之和趋向正态
最大熵原理：给定均值和方差，高斯熵最大
数学性质好：共轭性、解析解

import numpy as np
from scipy import stats
 
# 高斯分布
mu, sigma = 0, 1
x = np.linspace(-4, 4, 100)
pdf = stats.norm.pdf(x, mu, sigma)
 
# 采样
samples = np.random.normal(mu, sigma, size=1000)

3.4 最大似然估计（MLE）

目标：找到使观测数据概率最大的参数

$\hat{θ}_{M L E} = ar g max_{θ} P (D ∣ θ) = ar g max_{θ} \prod_{i = 1}^{n} p (x_{i} ∣ θ)$

取对数（方便计算）：

$\hat{θ}_{M L E} = ar g max_{θ} \sum_{i = 1}^{n} lo g p (x_{i} ∣ θ)$

示例：高斯分布

观测数据 ${x_{1}, ..., x_{n}}$ ，估计均值：

$\overset{μ}{^}_{M L E} = \frac{1}{n} \sum_{i = 1}^{n} x_{i}$

与损失函数的关系：

分布假设	对应损失函数
高斯	MSE（均方误差）
伯努利	Binary Cross-Entropy
多项	Cross-Entropy

3.5 信息论基础

信息熵：随机变量的不确定性

$H (X) = - \sum_{x} p (x) lo g p (x)$

交叉熵：用 q 编码 p 的平均编码长度

$H (p, q) = - \sum_{x} p (x) lo g q (x)$

KL 散度：分布差异度量

$D_{K L} (p ∥ q) = \sum_{x} p (x) lo g \frac{p ( x )}{q ( x )} = H (p, q) - H (p)$

ML 应用：

分类损失：交叉熵
VAE：KL 散度正则化
知识蒸馏：软标签对齐

4. 优化理论

4.1 梯度下降

核心思想：沿梯度反方向更新参数

$θ_{t + 1} = θ_{t} - η \nabla L (θ_{t})$

其中 $η$ 是学习率。

变体：

方法	更新规则	特点
SGD	$θ \leftarrow θ - η \nabla L$	基础版本
Momentum	$v \leftarrow β v + \nabla L$ $θ \leftarrow θ - η v$	加速、减少震荡
AdaGrad	自适应学习率（累积梯度平方）	稀疏数据
RMSprop	指数移动平均梯度平方	解决 AdaGrad 衰减
Adam	Momentum + RMSprop	最常用

Adam 更新规则：

$m_{t} = β_{1} m_{t - 1} + (1 - β_{1}) g_{t}$ $v_{t} = β_{2} v_{t - 1} + (1 - β_{2}) g_{t}^{2}$ $\overset{m}{^}_{t} = \frac{m _{t}}{1 - β _{1}^{t}}, \overset{v}{^}_{t} = \frac{v _{t}}{1 - β _{2}^{t}}$ $θ_{t} = θ_{t - 1} - η \frac{m ^ _{t}}{v ^ _{t} + ϵ}$

import torch.optim as optim
 
# 常用优化器
optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9)
optimizer = optim.Adam(model.parameters(), lr=0.001, betas=(0.9, 0.999))
optimizer = optim.AdamW(model.parameters(), lr=0.001, weight_decay=0.01)

4.2 凸优化

凸函数定义：

$f (λ x + (1 - λ) y) \leq λ f (x) + (1 - λ) f (y)$

重要性质：

局部最优 = 全局最优
梯度下降保证收敛

判断方法：海森矩阵半正定（ $H ⪰ 0$ ）

常见凸函数：

$x^{2}$
$e^{x}$
$∥ x ∥_{2}$
$- lo g x$

非凸优化（深度学习）：

损失函数非凸
可能陷入局部最优
实践中效果良好（鞍点、平坦极小值）

4.3 正则化

L2 正则化（权重衰减）：

$L_{r e g} = L + \frac{λ}{2} ∥ w ∥_{2}^{2}$

梯度更新： $w \leftarrow (1 - η λ) w - η \nabla L$

L1 正则化（Lasso）：

$L_{r e g} = L + λ ∥ w ∥_{1}$

特点：产生稀疏解（部分权重为 0）

贝叶斯视角：

正则化	等价先验
L2	高斯先验
L1	拉普拉斯先验

4.4 学习率调度

策略	公式	特点
Step Decay	$η_{t} = η_{0} \times γ^{⌊ t / T ⌋}$	阶梯下降
Cosine Annealing	$η_{t} = η_{min} + \frac{1}{2} (η_{0} - η_{min}) (1 + cos (\frac{t π}{T}))$	平滑下降
Warmup	前 N 步线性增长	稳定初期训练
One Cycle	先升后降	快速收敛

from torch.optim.lr_scheduler import CosineAnnealingLR, OneCycleLR
 
scheduler = CosineAnnealingLR(optimizer, T_max=100, eta_min=1e-6)
scheduler = OneCycleLR(optimizer, max_lr=0.01, total_steps=1000)

5. 实践速查

5.1 NumPy 常用操作

import numpy as np
 
# 创建
a = np.array([1, 2, 3])
A = np.zeros((3, 4))
B = np.ones((3, 4))
I = np.eye(3)  # 单位矩阵
R = np.random.randn(3, 4)  # 标准正态
 
# 基本运算
C = A @ B.T          # 矩阵乘法
d = np.dot(a, a)     # 点积
norm = np.linalg.norm(a)  # 范数
 
# 线性代数
det = np.linalg.det(I)    # 行列式
inv = np.linalg.inv(I)    # 逆矩阵
vals, vecs = np.linalg.eig(I)  # 特征分解
U, S, Vt = np.linalg.svd(A)    # SVD
 
# 统计
mean = np.mean(R)
std = np.std(R)
cov = np.cov(R)

5.2 PyTorch 张量操作

import torch
 
# 创建
x = torch.tensor([1.0, 2.0, 3.0])
X = torch.randn(3, 4)
 
# 梯度
x = torch.randn(3, requires_grad=True)
y = (x ** 2).sum()
y.backward()
print(x.grad)
 
# 广播
a = torch.randn(3, 1)
b = torch.randn(1, 4)
c = a + b  # (3, 4)
 
# 常用函数
softmax = torch.softmax(X, dim=-1)
log_softmax = torch.log_softmax(X, dim=-1)

5.3 学习资源推荐

书籍：

《Mathematics for Machine Learning》— 免费在线，系统全面
《Linear Algebra Done Right》— 线性代数理论
《Pattern Recognition and Machine Learning》— 概率视角

课程：

MIT 18.06 Linear Algebra（Gilbert Strang）
Stanford CS229 Machine Learning（数学部分）
3Blue1Brown（可视化讲解）

在线工具：

Desmos（函数可视化）
GeoGebra（几何可视化）
WolframAlpha（符号计算）

6. 速查表

6.1 线性代数速查

概念	符号/公式	说明
点积	$a \cdot b = \sum a_{i} b_{i}$	相似度
L2 范数	$∥ x ∥_{2} = \sum x_{i}^{2}$	向量长度
矩阵乘法	$(AB)_{ij} = \sum_{k} A_{ik} B_{k j}$	线性变换
转置	$(A^{T})_{ij} = A_{j i}$	行列互换
逆矩阵	$AA^{- 1} = I$	逆变换
特征值	$Av = λ v$	不变方向
SVD	$A = UΣV^{T}$	通用分解

6.2 微积分速查

概念	公式	说明
链式法则	$\frac{df}{d x} = \frac{df}{d g} \cdot \frac{d g}{d x}$	复合函数求导
梯度	$\nabla f = (\frac{\partial f}{\partial x _{1}}, ..., \frac{\partial f}{\partial x _{n}})$	最速上升方向
Sigmoid 导数	$σ^{'} (x) = σ (x) (1 - σ (x))$	激活函数梯度
Softmax + CE	$\frac{\partial L}{\partial z _{i}} = p_{i} - y_{i}$	简洁梯度

6.3 概率统计速查

概念	公式	说明
贝叶斯	$P (A ∣ B) = \frac{P ( B ∣ A ) P ( A )}{P ( B )}$	后验推断
期望	$E [X] = \sum x \cdot p (x)$	平均值
方差	$Var (X) = E [X^{2}] - (E [X])^{2}$	离散程度
高斯	$p (x) = \frac{1}{2 π σ ^{2}} e^{- \frac{( x - μ ) ^{2}}{2 σ ^{2}}}$	最常用分布
交叉熵	$H (p, q) = - \sum p (x) lo g q (x)$	分类损失
KL 散度	$D_{K L} (p ∥ q) = \sum p lo g \frac{p}{q}$	分布差异

Sean's Blog

Explorer

00-数学基础

机器学习数学基础

概览：数学与 ML 的对应关系

1. 线性代数

1.1 向量与矩阵

1.2 向量运算

1.3 矩阵运算

1.4 特征值与特征向量

1.5 奇异值分解（SVD）

1.6 正定矩阵

2. 微积分

2.1 导数与梯度

2.2 常用导数公式

2.3 链式法则（Chain Rule）

2.4 雅可比矩阵与海森矩阵

2.5 自动微分

2.6 矩阵求导（Matrix Calculus）

基本记号

常用公式（标量对向量）

向量对向量（雅可比矩阵）

线性回归推导示例

记忆技巧

参考资源

3. 概率与统计

3.1 基本概念

3.2 期望与方差

3.3 常见概率分布

离散分布

连续分布

3.4 最大似然估计（MLE）

3.5 信息论基础

4. 优化理论

4.1 梯度下降

4.2 凸优化

4.3 正则化

4.4 学习率调度

5. 实践速查

5.1 NumPy 常用操作

5.2 PyTorch 张量操作

5.3 学习资源推荐

6. 速查表

6.1 线性代数速查

6.2 微积分速查

6.3 概率统计速查

相关笔记

目录

Graph View

反向链接