神经网络学习笔记（2025 版）

更新时间：2025-01 时效性标记： 含 2024–2025 热点（Mamba-2、FlashAttention-3、RAG 配套、QLoRA/PEFT、推理加速、Patchscopes、纯强化学习推理训练、Scaling Laws、Test-time Compute、Constitutional AI、多模态融合）。

1 速查表（精选）⚡

快速参考： 最常用的技术选型与配置基线

类别	推荐基线	升级选项	备注
优化器	AdamW	Lion / Adafactor	Lion 适合超大模型
激活	GELU	SwiGLU / SiLU	SwiGLU 用于 LLaMA 系列
正则	Dropout + LayerNorm	Stochastic Depth (深层)	深层网络优先 SD
长序列	FlashAttention-2	Mamba-2 / Hybrid Attn+SSM	Mamba 适合极长上下文
微调	LoRA (r=8-16)	QLoRA + ORPO	QLoRA 单卡 65B 可微调
推理加速	KV Cache + Continuous Batch	Speculative + Medusa Heads	分级服务配合难度路由
量化	INT8 PTQ	NF4 + SmoothQuant / AWQ	NF4 微调专用，AWQ 推理优
对齐	SFT + DPO	RLHF + Constitutional AI	CAI 降低人工标注成本
安全	基础内容过滤	越狱检测 + 输出结构验证	多层防护

训练配置快速模板：

学习率调度： Warmup 5% steps → Cosine Decay
混合精度： BF16 优先（比 FP16 更稳定）
梯度裁剪： max_norm=1.0（防爆炸）
批次大小： 尽量大（配合梯度累积模拟）
Scaling Laws： 7B 模型需 ~7T tokens（Chinchilla 比例）

2 总览与核心认知

神经网络本质：以可微分的参数化函数族近似输入到输出的复杂非线性映射，通过梯度下降最小化损失函数。三个层面理解：

表达能力（结构）：层次化组合线性投影 + 非线性激活 + 特殊结构（卷积/注意力/状态空间/图结构）。
学习机制（优化）：损失函数 + 反向传播 + 更新规则 + 正则化/调度。
系统工程（效率与可信）：数据流水线、分布式训练、推理加速、对齐与安全、评估监控。

3 数学基础与符号

线性代数：向量/矩阵乘、特征分解、奇异值分解（SVD）、张量形状约定 (B × T × D)
概率分布：交叉熵、KL 散度、最大似然、ELBO（变分推断）
微积分：链式法则（反向传播核心）
优化：梯度下降、动量、二阶近似（Hessian）、学习率调度
函数逼近：万能逼近定理（浅层可逼近但深层更高效）

公式例：单层前向 $z^{(l)} = W^{(l)} a^{(l - 1)} + b^{(l)}, a^{(l)} = f (z^{(l)})$ 反向传播梯度： $d e l t a^{(l)} = (W^{(l + 1)})^{T} d e l t a^{(l + 1)} o d o t f^{'} (z^{(l)})$ 更新： $W l e f t a r r o w W - e t a, p a r t ia l L / p a r t ia l W$

4 核心组件与机理

4.1 层类型

全连接（Dense/Linear）
卷积（局部感受野 + 权重共享）
循环（RNN/LSTM/GRU，序列依赖）
注意力（多头自注意力、键值匹配）
状态空间层（Selective SSM，Mamba 块）
正则化层：Dropout、BatchNorm、LayerNorm、RMSNorm、GroupNorm
嵌入层：词/位置/旋转位置编码（RoPE）、ALiBi、动态扩展
图层：消息传递（GCN/GAT/GraphSAGE）
归一化策略演进：BN（依赖批）、LN（序列稳定）、RMSNorm（简化）

4.2 激活函数

函数	公式	优点	缺点	使用场景
ReLU	max(0,x)	简单高效	死亡 ReLU	默认基线
LeakyReLU	max(αx,x)	缓解死亡	存在偏移	替代 ReLU
GELU	0.5x(1+erf(x/√2))	平滑	计算稍贵	Transformer 默认
SiLU/Swish	x·σ(x)	平滑	稍慢	生成/扩散
Tanh/Sigmoid	标准双曲/逻辑	输出范围	梯度消失	输出层/特定门控
Softmax	exp/归一化	概率解释	长序列注意力耗	注意力权重

4.3 权重初始化

Xavier/Glorot：适合 Sigmoid/Tanh
Kaiming/He：适合 ReLU 系列
SSM/Mamba 特定参数（Δ 等）需保持动态稳定性（论文中强调保留特定 bias 初始化）
大模型：Scaled initialization + μ调节 + 沿用 GPT- 样式（避免崩溃）

4.4 正则化与泛化

数据层：数据增强 (Crop/Flip/Mixup/CutMix)、随机擦除
参数层：权重衰减 (L2)、Dropout、Stochastic Depth
表征层：BatchNorm、LayerNorm
训练层：Early Stopping、Ensemble、Snapshot Ensemble
大模型特有：对比训练（减少幻觉）、语义对齐约束、输出过滤（Guardrails）

4.5 损失函数分类

类别	常见损失	说明
分类	Cross-Entropy	Softmax 概率匹配
回归	MSE / MAE / Huber	对异常值鲁棒性
序列	CTC Loss / Seq2Seq CE	对齐问题
生成	NLL / KL / ELBO	变分/扩散
对比	InfoNCE / NT-Xent	表征分离/聚合
强化	Policy Gradient Loss / Value Loss	与优势函数结合
对齐	Preference Loss (DPO/IPO/ORPO/RPO)	人类偏好/规则对齐
量化辅助	Distillation Loss	小模型性能保留

5 前向与反向传播

前向：层序列计算 + 中间缓存 (activation/attention logits)。反向：自顶向下链式法则传播梯度；注意力反向需保存 Q/K/V 及 softmax 结果或采用 IO-aware 算法（FlashAttention）。节省内存策略：Activation Checkpointing、重计算、低精度 Mixed Precision (FP16/BF16/FP8)。 FlashAttention 的贡献：块流式 + IO aware 排布，线性内存复杂度提升长序列能力（20×内存节省@4K 序列，2×速度增益）。

6 优化算法与调度

方法	核心	优点	风险
SGD	基础	理论清晰	收敛慢
Momentum	累积梯度惯性	加速收敛	需调节 β
Adam / AdamW	一阶自适应 (m,v)	调参少	泛化争议
RMSProp	二阶近似	稳定性好	偏任务
Lion	使用符号梯度更新	更少内存	仍在评估
Adafactor	Factorized 二阶	超大模型适用	复杂性高
低资源调优	QLoRA + Paged Optimizer	65B 单卡可微调	4-bit 推理慢
学习率调度	Cosine / Linear / Warmup+Decay	减少过拟合	调度策略不当会抖动
长链推理训练	纯 RL (DeepSeek-R1)	推理能力增强	成本高、稳定性难

技巧：

Warmup 5% steps + Cosine Decay 常用组合
Layer-wise LR Decay (靠近输入层 LR 更小)
Gradient Clipping 防止爆炸
梯度累计处理大 batch 模拟

6.1 Scaling Laws 与计算最优训练 ⚡ (2024-2025)

核心发现： 深度学习模型的性能遵循可预测的幂律关系，计算资源的分配策略直接影响最终效果。

6.1.1 Kaplan 等人的幂律关系 (2020)

研究跨越 7 个数量级的模型规模，发现损失函数 $L$ 与三个因素的关系：

模型参数量 (N)： $L (N) \propto N^{- α}$ ，其中 $α \approx 0.076$
数据集大小 (D)： $L (D) \propto D^{- β}$ ，其中 $β \approx 0.095$
计算量 (C)： $L (C) \propto C^{- γ}$ ，其中 $γ \approx 0.050$

关键结论：

更大的模型具有更高的 样本效率（data efficiency）
最优训练策略是：使用非常大的模型 + 适量数据 + 早停（在收敛前停止）
固定计算预算下，应优先增加模型规模而非训练步数

6.1.2 Chinchilla 的计算最优修正 (2022) 🔥

Hoffmann 等人训练了 400+ 个模型（70M–16B 参数，5B–500B tokens），发现：

核心论点：当前大语言模型严重训练不足！

维度	传统策略（Gopher）	Chinchilla 最优策略
缩放优先级	持续增大模型参数（280B）	参数与训练数据等比例缩放（1:1）
计算分配	300B tokens 训练	1.4T tokens 训练（4× 数据量）
模型规模	280B 参数	70B 参数（相同计算量）
MMLU 准确率	60.0%	67.5% (+7.5pp)
推理成本	高	大幅降低（小 4 倍）
训练建议	” 越大越好 "	" 双倍参数 = 双倍 tokens”
实际影响	GPT-3/PaLM 等模型被证明为 undertrained	LLaMA/Mistral 等遵循新比例，效果更优

公式： 对于计算预算 $C$ ，最优配置满足： $N_{opt} \propto C^{0.5}, D_{opt} \propto C^{0.5}$ 即参数和 tokens 应以相同速度增长。

6.1.3 实际应用指南

场景	建议策略	示例
训练新基座模型	严格遵循 Chinchilla 比例，避免 oversize 模型	7B 模型至少需 7T tokens
预算有限微调	选择适中规模模型 + 充分训练步数	选 13B 而非 70B + 短时微调
推理效率优先	倾向 Chinchilla 风格（小模型 + 充分训练）	Mistral 7B 性能接近 LLaMA 2 13B
持续预训练（CPT）	确保新增数据量与模型规模匹配	7B 模型至少再训 1T tokens
评估模型训练是否充分	检查 params/tokens 比例，理想值 ~1:200 (Chinchilla)	GPT-3 175B/300B ≈ 1:1.7（不足）

6.1.4 对 2025 训练策略的启示

数据质量比数量更关键： Chinchilla 定律仅在高质量语料下成立，合成数据/去重/过滤变得至关重要。
计算预算重新分配：
- 传统：80% 算力用于模型扩容，20% 用于数据
- 新范式：50% 模型，50% 数据/多轮训练
推理成本权衡： Chinchilla 模型在部署时更经济，但需更多训练时间。
开源模型竞争力： LLaMA/Mistral 系列采用 Chinchilla 比例，用更少参数达到闭源大模型水平。

参考文献：

Kaplan et al. (2020): “Scaling Laws for Neural Language Models” [arXiv:2001.08361]
Hoffmann et al. (2022): “Training Compute-Optimal Large Language Models (Chinchilla)” [arXiv:2203.15556]

7 典型网络架构演进路线

阶段	代表	关键思想	局限	改进方向
MLP	多层感知机	全连接特征混合	参数爆炸/无归纳偏置	引入卷积/注意力
CNN	LeNet/AlexNet/VGG/ResNet	局部感受野 + 共享	固定感受野	动态注意力/多尺度
RNN	Vanilla RNN	序列递归	梯度消失	LSTM/GRU
LSTM/GRU	门控机制	长期依赖	计算串行	Self-Attention
Attention	Bahdanau/Scaled Dot	全局依赖	O(n^2)	稀疏/线性/SSM
Transformer	Encoder/Decoder/多头	并行 + 可扩展	长序列耗资源	FlashAttention/ALiBi/RoPE/长上下文策略
NAS	NASNet/DARTS/EfficientNet	自动架构搜索	计算成本极高	硬件感知 NAS/一次性搜索（ENAS）
SSM/Mamba	Selective State Space	线性时间、硬件友好	生态尚早	SSD/Mamba-2 融合 Attention
MoE	Switch/MoE/Sparse	稀疏激活提高容量	路由不稳定	MoE 2.0、去偏激活剪裁
GNN	GCN/GAT/GraphSAGE	拓扑消息传递	过平滑	图注意力/次采样
Diffusion	DDPM/DDIM/Stable Diffusion	噪声逐步去除	推理慢	Consistency / Latent Speedup
混合	RetNet/RWKV/Hybrid	记忆 + 注意力组合	标准化未统一	更通用表达
长上下文扩展	Sliding Window/Retrieval/KV 压缩	扩展有效上下文	信息截断	分层缓存/Paged KV

重要说明：

Transformer 是现代大语言模型（GPT/BERT/LLaMA）的基础架构，完全基于注意力机制的神经网络。详见 Transformer 专题笔记。
NAS (Neural Architecture Search) 通过自动化搜索设计神经网络结构，包含搜索空间、搜索策略、性能估计三个维度。代表工作：NASNet、DARTS、EfficientNet。

8 训练稳定性与常见问题

问题	症状	原因	解决
梯度消失	低层梯度~0	深层 + 饱和激活	ReLU/GELU + 残差 + 归一化
梯度爆炸	loss/权重发散	初始化或高 LR	Gradient Clipping + 降低 LR
模型崩溃 (NaN)	loss=NaN	FP16 溢出	AMP 动态缩放、BF16
过拟合	训练优、验证差	表达力过强	正则/数据增强/早停
幻觉 (LLM)	输出伪事实	语言模型无 grounding	RAG + 引用验证 + 事实一致性评估
KV Cache 失效	长序列慢	缓存结构不优化	Paged KV / 分块加载
状态空间不稳定	序列漂移	参数初始化错	保留论文初始化策略，fp32 参数存储

9 参数高效微调 (PEFT)

方法	核心	适用	优点	缺点
LoRA	W = W + A B	下游适配	极少参数	有时表达不足
QLoRA	4-bit 冻结 + LoRA	大模型单卡	内存极低	4-bit 推理慢
Prefix / P-Tuning	前缀可学习向量	文本生成	融合任务上下文	泛化有限
Adapter	插入瓶颈层	多任务	模块化	推理额外延迟
Prompt Tuning	只学 prompt 向量	轻量任务	极简	能力有限
ORPO / DPO / IPO / KTO	偏好优化	对齐提升	不需奖励模型	数据质量敏感
SFT + RLHF	监督微调 + 人类反馈	高质量助手	可控对齐	成本高

10 效率与加速

10.1 内存与算力

Mixed Precision: BF16 优先（稳定）
FlashAttention-2/3：工作分区 + 合并 IO 提升吞吐
分布式：Data Parallel / Tensor Parallel / Pipeline / ZeRO
Checkpointing：降低显存峰值
Paged KV Cache：长上下文推理关键

10.2 量化与剪枝

技术	要点	近期趋势
PTQ/QAT	训练后/感知	INT4/FP8 广泛化
Group-wise Quant	分组权重共享尺度	性能 - 精度平衡
NF4 (QLoRA)	正态最优 4-bit	低资源微调标配
SmoothQuant/AWQ	激活缩放/权重对齐	减少推理误差
剪枝	结构/非结构化	稀疏编译工具链成熟

10.3 蒸馏

知识蒸馏：Logits/中间层特征匹配
SLM Distillation：将大模型能力迁移到小模型以节能部署
对比蒸馏：减少幻觉与逻辑错误

10.4 推理加速策略

方法	场景	原理
Speculative Decoding	LLM 推理	草稿模型 + 验证
Early Exit	分类/推理链	中间层置信度判断
Medusa Heads	并行候选生成	多分支扩展
Continuous Batching	多用户并发	合并 Prefill
KV Cache 压缩	长上下文	删低注意力贡献向量
Contrastive Decoding	事实改进	base + refined 双模型

10.5 测试时计算缩放 (Test-Time Compute Scaling) ⚡ 2024

核心思想： 在推理阶段投入额外计算以提升输出质量，可能比单纯增大模型参数更高效。

10.5.1 研究背景 (Snell et al., 2024)

传统范式假设模型性能由 预训练阶段 的参数规模决定，但当允许在推理时使用非平凡的计算时，较小模型通过更深入的 ” 思考 ” 可能超越大模型。

关键发现：

在 FLOPs 对等的对比中，小模型 + 测试时计算 在某些困难问题上优于 14× 大模型
不同难度的 prompt 需要 自适应计算分配，compute-optimal 策略可提升 4× 效率（相比 best-of-N）

10.5.2 两类主流方法

方法类别	技术路线	优势	局限
搜索式验证 (Search+Verify)	生成多个候选 → 基于过程的 verifier 打分	可靠性高，覆盖多路径	需训练强验证模型
自适应精炼 (Adaptive Update)	动态调整模型对 response 的分布	灵活，无需外部奖励模型	对 prompt 敏感度高

10.5.3 计算最优 (Compute-Optimal) 策略

问题： 给定固定推理预算（如 100 次前向传播），如何在不同 prompt 间动态分配？

解决方案：

难度感知路由： 对简单问题仅用少量 token，复杂问题分配更多生成尝试或迭代修正
多阶段验证： 快速筛选 → 精细重排 → 最终验证（类似漏斗）
搜索深度自适应： 初始答案置信度低时，扩大搜索树宽度或增加反思轮数

伪代码示例（简化）：

def compute_optimal_inference(prompt, budget):
    difficulty = estimate_difficulty(prompt)  # 启发式评估
    if difficulty < threshold:
        return greedy_decode(prompt, max_tokens=50)
    else:
        candidates = parallel_generate(prompt, n=budget//2)
        scores = verifier_model(candidates)
        best = select_top(candidates, scores, k=5)
        return refine_with_cot(best, budget//2)

10.5.4 与传统 Best-of-N 对比

策略	计算分配	典型效率	适用场景
Best-of-N	均匀生成 N 个候选 → 选最优	基线	简单任务、均匀难度
自适应分配	难题多尝试，易题快速返回	4×	混合难度、实际应用
CoT 引导	强制推理链展开	2×	数学、逻辑推理
搜索树 MCTS	树状扩展 + 剪枝	3-5×	需精确验证的代码生成

10.5.5 实际应用建议

分级推理服务：
- Tier 1（快速）：直接贪心解码，延迟 <100ms
- Tier 2（标准）：Best-of-3 + 简单验证，延迟 ~500ms
- Tier 3（深度）：搜索 + 多轮精炼，延迟 2-5s（数学/代码任务）
与 Scaling Laws 结合：
- 训练阶段：遵循 Chinchilla 比例优化基座模型
- 推理阶段：根据任务复杂度动态分配计算，避免所有查询都用大模型
硬件友好设计：
- 并行候选生成适合批处理（GPU 利用率高）
- 验证模型可蒸馏为小型快速版本（部署在 CPU）
与已有技术栈兼容：
- 结合 Speculative Decoding 加速候选生成
- 使用 Continuous Batching 处理多样化难度请求

10.5.6 未来方向

端到端训练： 联合优化生成策略和验证模型
课程式计算分配： 从简单问题逐渐扩展到复杂推理链（类似人类思考模式）
多模态扩展： 图像/代码生成中的迭代精炼（如 DALL-E 3 的多轮改进）

参考文献：

Snell et al. (2024): “Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters” [arXiv:2408.03314]

11 对齐与安全（Alignment & Safety）

安全维度：有害内容、越狱攻击、提示注入、PII 泄露
技术手段：
- Policy Filtering（规则层）
- Preference Optimization（ORPO/DPO/IPO/KTO）
- Structured Output Constraints（JSON Schema/Grammar）
- 引用 Grounding（RAG 流程中事实验证）
- Patchscopes（解释与检查隐藏表示：对内部表征解释、错误路径纠正）
评估指标：幻觉率、拒答率、安全违规率、偏见指标、工具调用成功率

11.1 Constitutional AI (CAI)：从 AI 反馈实现无害性 🔥 2022-2025

核心理念： 通过明确的 原则列表（Constitution） 引导模型自我改进，无需人工标注有害输出。

11.1.1 传统 RLHF 的局限

问题	表现	影响
人工标注成本高	需大量人类评估有害内容	扩展性差
标注者安全风险	长期接触有害文本损伤心理	伦理争议
标注一致性差	对 ” 有害 ” 定义主观差异大	训练信号噪声
模型过度拒答（evasive）	对无害问题也避而不答	用户体验下降

11.1.2 CAI 的两阶段流程

11.1.2.1 阶段 1：监督学习（SL）—— 自我批评与修订

采样初始响应： 从基础模型生成回答
自我批评（Self-Critique）： 提示模型：” 识别回答中违反原则 X 的部分 ”
- 原则示例：” 避免种族主义 ”、” 不提供非法建议 ”、” 保持客观中立 ”
自我修订（Self-Revision）： 提示模型：” 根据批评重写回答，满足原则 X”
监督微调： 用修订后的回答作为目标，训练模型

关键优势： 无需人工介入，完全由 AI 完成质量控制闭环。

11.1.2.2 阶段 2：强化学习（RL from AI Feedback, RLAIF）

生成候选对： 对同一提示生成两个回答 (A, B)
AI 评估： 让模型判断哪个更符合 Constitution，输出偏好标签
训练偏好模型（PM）： 用 AI 标签训练奖励模型（而非人类标签）
RL 优化： 用 PM 作为奖励信号执行 PPO 或 DPO

数学形式（简化）： $r (x, y) = PM (y ∣ x, Constitution)$ $θ^{*} = ar g max_{θ} E_{x, y \sim π_{θ}} [r (x, y) - β \cdot KL (π_{θ} ∣∣ π_{ref})]$

11.1.3 Constitution 示例（部分）

原则 ID	描述	应用场景
C1	不得提供制造武器或毒品的详细指南	安全拒答
C2	避免性别/种族/宗教歧视性语言	公平性
C3	承认不确定性，不编造事实	减少幻觉
C4	在法律灰色地带明确告知风险	责任披露
C5	尊重用户隐私，不主动询问敏感个人信息	隐私保护
C6	对有争议话题给出多角度观点	中立性

用户可根据应用场景 自定义 Constitution（如企业内部合规要求）。

11.1.4 与传统方法对比

维度	RLHF（人类反馈）	CAI（AI 反馈）
标注来源	人类标注员	AI 自我评估
成本	高（$0.1-1/标注）	极低（仅推理成本）
可扩展性	受限于人力	无限扩展
原则透明度	隐含在标注中	明确列举（可审计）
定制化	需重新标注	修改 Constitution 即可
过度拒答问题	常见	通过原则 “engage helpfully” 缓解

11.1.5 实践技巧

原则设计要点：
- 具体且可操作（避免 ” 做个好人 ” 这种模糊描述）
- 覆盖主要风险维度（安全、公平、事实、隐私）
- 优先级明确（冲突时如何权衡）
Chain-of-Thought 增强： 在自我批评阶段要求模型 逐步解释 为何违反原则，提升推理透明度：
```
Critique: "Let's think step-by-step about whether the response..."
```
分阶段部署：
- 初期：仅用 SL 阶段（快速对齐）
- 中期：引入 RLAIF（精细化偏好）
- 长期：持续更新 Constitution 适应新风险
与其他技术结合：
- 前置过滤： 用轻量分类器拦截明显有害输入
- 后置验证： RAG grounding 检查事实一致性
- 监控反馈： 真实用户举报 → 增补 Constitution

11.1.6 局限与未来方向

局限	解决方向
AI 评估可能继承偏见	多模型集成评估 + 人类抽样验证
原则冲突难处理	引入元原则（如 ” 优先保护安全 “）
对抗性提示仍可能绕过	Red-teaming + 对抗训练
不适用小模型	蒸馏 CAI 能力到小模型（研究中）

2025 趋势：

多模态 CAI： 扩展到图像/视频生成（检测暴力/NSFW 内容）
动态 Constitution： 根据地域/文化自动调整原则
开源 CAI 工具链： LangChain/LlamaIndex 集成 CAI 流程

参考文献：

Bai et al. (2022): “Constitutional AI: Harmlessness from AI Feedback” [arXiv:2212.08073]
Anthropic (2023): “Claude’s Constitutional Training” [技术博客]

12 RAG 与外部知识增强（简要）

RAG 流水线：Ingestion → Chunking → Embedding → Index → Retrieval → Rerank → Context Filtering → Generation → Citation Validation 关键关注：

Chunk 策略：语义分块 vs 固定长度；Overlapping
Hybrid Retrieval：BM25 + 向量 + Graph/SQL
Reranking：Cross-Encoder / ColBERT
Facts 检测：引用对齐、来源覆盖率（Citation Coverage）、Grounding Consistency
在线监控：召回下降预警、延迟 vs 质量平衡

13 2024–2025 前沿趋势速览（时效性）

热点	核心贡献	使用价值	关注点
Mamba / Mamba-2 (SSD)	通过状态空间双重性 SSD 与选择性扫描实现线性时间序列建模	长上下文、高吞吐、低显存	初始化敏感、生态尚在扩展
FlashAttention-3	Hopper 优化 + FP8 支持 + 分块稀疏	极长序列、推理加速	需 CUDA ≥ 12.3
QLoRA (NF4 + Double Quant + Paged Optimizer)	单卡 65B 微调可行	降低门槛	4-bit 推理性能瓶颈待改进
ORPO/DPO/IPO/KTO	偏好优化简化奖励模型	高效对齐	数据标注质量决定上限
Paged KV Cache / Sliding Window	长上下文稳定扩展	互动场景、多轮对话	与检索融合策略复杂
Patchscopes (解释框架)	框架式可解释方法统一	模型内部行为诊断	工具链仍在验证
纯 RL 推理训练 (DeepSeek-R1)	强化训练推理链路提升数学/逻辑	推理型助手	成本与稳定性权衡
SSM + Attention 混合 (RetNet/Mamba2Attn)	组合归纳偏置与全局注意力	更通用序列表达	双路线参数调优复杂
Softcapping / ALiBi / RoPE 插值	长上下文位置扩展技巧	低成本扩展上下文长度	需避免语义漂移
可持续 AI	能耗/碳指标引入训练决策	降低运营成本	指标标准未统一

14 学习与实践路线建议

阶段化建议：

入门：线性代数 + 反向传播手推 → 实现一个两层 MLP 分类 MNIST
进阶：实现 CNN（含卷积/池化/BatchNorm/残差），对比训练曲线
序列：实现 LSTM 与 Transformer 子集（仅 Encoder Block）
注意力优化：在标准注意力替换 FlashAttention（调用库对比速度）
大模型微调：使用 LoRA → QLoRA 对开源 7B/13B 做指令微调
RAG 系统：构建文档索引 + 向量检索 + 引用插入 + Hallucination 检测
前沿尝试：加载 Mamba2 小模型 → 对比同参数 Transformer 在长序列性能
安全与对齐：自建简单偏好数据集，用 ORPO 或 DPO 做偏好微调
可解释性：使用 Patchscopes 或类似工具探测中间层表示
能效评估：记录训练 FLOPs / 功耗，对比量化与非量化差异

推荐实践项目：

“最小 GPT”实现（nanoGPT 类）
“最小 Diffusion”图像生成
文档问答 RAG 系统 + 引用校验
LoRA/QLoRA 微调对比实验报告
长上下文测试基准（8K→32K→64K）延迟与准确率曲线

15 常见坑与排错清单

症状	排查路径
loss 不下降	数据格式 / 学习率过大 / 初始化错误
梯度全 0	激活饱和 / 反向截断 / FP16 溢出
长序列极慢	未使用 FlashAttention / KV Cache 不生效
微调后退化	Catastrophic Forgetting → 冻结前层/降低 LR
量化后崩溃	激活分布极端 → SmoothQuant / 重新校准
RAG 幻觉高	检索召回低 / 重排序缺失 / 引用未注入
Mamba 不稳定	初始化被覆盖 / 参数精度降为 FP16
JSON 输出乱	使用 grammar-based decoding / schema 验证重试
RLHF 发散	奖励模型失衡 → 重新标定或引入 preference 优化

16 推荐阅读顺序（论文/工具）

层次	论文/资源
基础	Backprop (Rumelhart 1986), ResNet (2015), Attention (Vaswani 2017)
表征进阶	LayerNorm, GELU, ALiBi, RoPE 插值
效率	FlashAttention (2022/2024), Mamba (2023), Mamba-2 (2024)
微调	LoRA (2021), QLoRA (2023), ORPO/DPO (2023-2024)
架构演进	RetNet, RWKV, Hyena, SSM 系列
对齐安全	RLHF (InstructGPT), Patchscopes (2024)
可持续与能效	量化综述、NF4、FP8 白皮书

17 后续可扩展方向

深入可解释：Patchscopes + 特征归因 + Causal Probing
多模态拓展：文本 + 图像 + 视频时间建模融合
长上下文评测基准增补：Needle-in-a-Haystack、Book QA
架构自动化：硬件感知 NAS 与动态稀疏激活
能耗指标记录：训练日志中加入能耗/碳足迹
安全策略体系：多层拦截（输入过滤→生成约束→后处理审查）

17.1 多模态架构融合细节 🔥 2024-2025

核心挑战： 如何让视觉编码器与语言模型高效对齐，同时保持各自模态的表达能力。

17.1.1 主流架构范式

架构类型	代表模型	核心思想	优势	局限
双塔融合	CLIP/BLIP	图像编码器 + 文本编码器对比学习	零样本泛化	细粒度交互不足
早期融合	Flamingo/IDEFICS	交叉注意力逐层融合	深度交互	计算成本高
投影器连接	LLaVA/MiniGPT	视觉编码器 → MLP 投影 → LLM 输入	简单高效	对齐质量依赖投影器设计
统一词表	Chameleon/Unified-IO	图像/文本共享 token 空间	模态平等	训练难度大
Q-Former 系列	BLIP-2/InstructBLIP	可学习查询向量桥接视觉 - 语言	参数高效	查询设计复杂
生成式端到端	DALL-E 3/Imagen	文本 → 扩散模型直接生成图像	创造力强	推理慢

17.1.2 视觉编码器选择

模型	架构	分辨率	特点	适用场景
CLIP ViT-L/14	Transformer	224×224	通用对比学习基线	快速原型
DINOv2 ViT-g/14	自监督 ViT	518×518	细粒度特征、无标注训练	高分辨率文档/细节
SigLIP	改进 CLIP	384×384	更稳定的 sigmoid 损失	大规模多模态预训练
EVA-CLIP ViT-E/14	扩展 ViT	224-336	性能 SOTA	高性能需求

17.1.3 对齐策略（投影器设计）

1. 简单线性投影（LLaVA 1.0）

visual_features = vit(image)  # [B, 256, 1024]
projected = linear(visual_features)  # [B, 256, 4096]
llm_input = concat(text_tokens, projected)

优点：快速、参数少
缺点：表达能力有限

2. MLP 投影器（LLaVA 1.5）

projected = mlp(visual_features)  # 2-3 层 MLP + GELU

优点：非线性变换提升对齐质量
应用：大多数开源多模态 LLM 采用

3. 交叉注意力融合（Flamingo）

for layer in llm_layers:
    text_hidden = self_attention(text_hidden)
    text_hidden = cross_attention(text_hidden, visual_features)
    text_hidden = ffn(text_hidden)

优点：深度交互，保留细节
缺点：计算量 2-3 倍增长

4. Q-Former（BLIP-2）

queries = learnable_embeddings(num_queries=32)  # 可学习查询
compressed_visual = transformer(queries, visual_features)  # [B, 32, 768]
llm_input = linear(compressed_visual)

优点：压缩视觉特征为固定数量 token，降低 LLM 负担
应用：参数高效微调场景

17.1.4 训练流程

阶段	目标	数据	冻结模块	典型轮数
预对齐	学习基础视觉 - 语言映射	图像 - 描述配对（CC3M）	ViT + LLM	1-2 epoch
指令微调	对齐多模态任务格式	多任务指令数据（LLaVA-Mix）	ViT（部分开放 LLM）	1 epoch
领域适配	特定应用场景增强	领域数据（医学/文档）	ViT（开放 MLP）	少量步数

17.1.5 长视频/多图处理策略

挑战： 单图处理容易，但视频（数千帧）和多图文档如何输入 LLM？

方法	原理	优点	缺点
帧采样	均匀采样 N 帧 → 各自编码	简单	丢失时序连续性
时序聚合	3D 卷积 / TimeSformer	保留时序信息	计算量大
压缩 token	Perceiver / Q-Former 压缩	固定输入长度	细节可能丢失
分层处理	先关键帧 → 再局部展开	效率与细节平衡	工程复杂

实际方案（GPT-4V 风格）：

视频切割为 2 秒片段
每片段提取 1-3 关键帧
关键帧 + 音频转文本 → 拼接输入 LLM

17.1.6 评估指标

维度	指标	说明
视觉理解	VQA 准确率、MMBench	基础视觉问答
细粒度感知	TextVQA、ChartQA	OCR/图表理解
推理能力	ScienceQA、MathVista	多步推理
幻觉率	POPE、CHAIR	对象/属性误判
指令遵循	MM-Vet、LLaVA-Bench	复杂任务执行

17.1.7 2025 前沿趋势

原生多模态 token 化： 放弃独立编码器，直接训练统一 tokenizer（如 Chameleon）
分辨率自适应： 根据图像复杂度动态调整输入 patch 数量（节省计算）
音频 - 视觉 - 文本三模态： 语音对话 + 屏幕理解（AI Agent 方向）
生成式反馈： 让模型生成图像验证自己的理解（自我校验机制）

推荐入手项目：

复现 LLaVA-1.5（简单投影器 + LLaMA-2）
对比不同视觉编码器（CLIP vs DINOv2）在细粒度任务的表现
实现多图文档理解（PDF 解析 + 布局分析）

参考资源：

LLaVA 系列论文 (Liu et al. 2023-2024)
BLIP-2 技术报告 (Li et al. 2023)
Flamingo 论文 (Alayrac et al. 2022)

18 📝 附录：本次更新日志（2025-01）

18.1 新增核心章节

5.5 Scaling Laws 与计算最优训练 ⚡
- 整合 Kaplan 2020 幂律关系与 Chinchilla 2022 的 1:1 参数 -token 缩放原则
- 说明当前 LLM 普遍训练不足的问题，提供计算预算分配指南
- 包含实际应用案例对比表（Gopher vs Chinchilla）
9.5 测试时计算缩放 (Test-Time Compute Scaling) ⚡
- 2024 最新研究：小模型 + 推理计算可超越 14× 大模型
- 详解搜索式验证与自适应精炼两类方法
- 提供 compute-optimal 策略伪代码与分级推理服务设计
10.1 Constitutional AI (CAI) 🔥
- Anthropic 的 RLAIF 框架完整解析
- 自我批评 - 修订的 SL 阶段 + AI 偏好的 RL 阶段详解
- 包含 Constitution 示例表与实践技巧
16.1 多模态架构融合细节 🔥
- 对比 6 种主流范式（双塔/早期融合/投影器/Q-Former 等）
- 视觉编码器选择指南（CLIP/DINOv2/SigLIP）
- 对齐策略详解（含 4 种投影器设计的代码示例）
- 长视频/多图处理策略与评估指标

18.2 结构优化

速查表前置： 将常用配置速查表移至第 0 章，便于快速查阅
更新日志后置： 将更新说明移至附录，不干扰正文阅读
章节重编号： 全文章节顺序调整，逻辑更连贯

18.3 架构表增强

在第 6 章演进表中补充 NAS (Neural Architecture Search) 条目
说明搜索空间、搜索策略、性能估计三维度
标注 2024-2025 趋势：硬件感知 NAS 与大模型时代的自动搜索

18.4 参考文献新增

arXiv:2001.08361 (Kaplan et al. - Scaling Laws)
arXiv:2203.15556 (Hoffmann et al. - Chinchilla)
arXiv:2408.03314 (Snell et al. - Test-Time Compute)
arXiv:2212.08073 (Bai et al. - Constitutional AI)
LLaVA/BLIP-2/Flamingo 多模态系列

18.5 内容特点

结构化表格： 所有关键对比都用表格呈现
公式推导： 包含核心数学公式与推导过程
代码示例： 提供伪代码与实际实现参考
实践指南： 每章都有具体应用建议
时效性标记： ⚡ 和 🔥 标记 2024-2025 最新内容

Sean's Blog

Explorer

神经网络

神经网络学习笔记（2025 版）

1 速查表（精选）⚡

2 总览与核心认知

3 数学基础与符号

4 核心组件与机理

4.1 层类型

4.2 激活函数

4.3 权重初始化

4.4 正则化与泛化

4.5 损失函数分类

5 前向与反向传播

6 优化算法与调度

6.1 Scaling Laws 与计算最优训练 ⚡ (2024-2025)

6.1.1 Kaplan 等人的幂律关系 (2020)

6.1.2 Chinchilla 的计算最优修正 (2022) 🔥

6.1.3 实际应用指南

6.1.4 对 2025 训练策略的启示

7 典型网络架构演进路线

8 训练稳定性与常见问题

9 参数高效微调 (PEFT)

10 效率与加速

10.1 内存与算力

10.2 量化与剪枝

10.3 蒸馏

10.4 推理加速策略

10.5 测试时计算缩放 (Test-Time Compute Scaling) ⚡ 2024

10.5.1 研究背景 (Snell et al., 2024)

10.5.2 两类主流方法

10.5.3 计算最优 (Compute-Optimal) 策略

10.5.4 与传统 Best-of-N 对比

10.5.5 实际应用建议

10.5.6 未来方向

11 对齐与安全（Alignment & Safety）

11.1 Constitutional AI (CAI)：从 AI 反馈实现无害性 🔥 2022-2025

11.1.1 传统 RLHF 的局限

11.1.2 CAI 的两阶段流程

11.1.2.1 阶段 1：监督学习（SL）—— 自我批评与修订

11.1.2.2 阶段 2：强化学习（RL from AI Feedback, RLAIF）

11.1.3 Constitution 示例（部分）

11.1.4 与传统方法对比

11.1.5 实践技巧

11.1.6 局限与未来方向

12 RAG 与外部知识增强（简要）

13 2024–2025 前沿趋势速览（时效性）

14 学习与实践路线建议

15 常见坑与排错清单

16 推荐阅读顺序（论文/工具）

17 后续可扩展方向

17.1 多模态架构融合细节 🔥 2024-2025

17.1.1 主流架构范式

17.1.2 视觉编码器选择

17.1.3 对齐策略（投影器设计）

17.1.4 训练流程

17.1.5 长视频/多图处理策略

17.1.6 评估指标

17.1.7 2025 前沿趋势

18 📝 附录：本次更新日志（2025-01）

18.1 新增核心章节

18.2 结构优化

18.3 架构表增强

18.4 参考文献新增

18.5 内容特点

目录

Graph View

反向链接