Infrasys-AI
diff --git a/‎.gitignore‎
Lines changed: 1 addition & 0 deletions b/‎.gitignore‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎00Summary/02StandardScaling.md‎
Lines changed: 52 additions & 15 deletions b/‎00Summary/02StandardScaling.md‎
Lines changed: 52 additions & 15 deletions
diff --git a/‎00Summary/03TTScaling.md‎
Lines changed: 59 additions & 4 deletions b/‎00Summary/03TTScaling.md‎
Lines changed: 59 additions & 4 deletions
diff --git a/‎00Summary/04TrainingStack.md‎
Lines changed: 4 additions & 6 deletions b/‎00Summary/04TrainingStack.md‎
Lines changed: 4 additions & 6 deletions
diff --git a/‎00Summary/05InferStack.md‎
Lines changed: 9 additions & 11 deletions b/‎00Summary/05InferStack.md‎
Lines changed: 9 additions & 11 deletions
@@ -18,3 +18,4 @@ prompt.txt
 06AlgoData/01Basic/code/vocab.json
 04Train/04PostTrainRL/test
 .idea
+prompt.md
@@ -1,8 +1,8 @@
 <!--Copyright © ZOMI 适用于[License](https://github.com/Infrasys-AI/AIInfra)版权许可-->
 
-# 02.大模型 Scaling Law
+# 02.大模型 Scaling Law(DONE)
 
-Author by：侯宇博
+> Author by：侯宇博
 
 本节将以 OpenAI 的 [Scaling Laws for Neural Language Models](https://arxiv.org/abs/2001.08361) 这篇论文为主，探讨 Transformer 在大语言模型中损失值 Loss 对模型架构、模型大小、算力资源以及用于训练过程的数据这些因素的依赖关系。结尾将会辅以其他研究成果，介绍影响 LLM 预训练效果的重要因素。
 
@@ -84,7 +84,7 @@ $$
 
 ![模型参数与数据](./images/01ScalingLaw03.png)
 
-类似的，下图展示了在固定模型规模后，模型性能随数据集大小变化的关系。可以看到，在 $N$ 为393.2K时，训练数据超过 $10^8$ 后，性能就不再有显著提升。而在 $N$ 为708M时，训练数据超过 $10^{10}$ 后，性能依然在持续提升。
+类似的，下图展示了在固定模型规模后，模型性能随数据集大小变化的关系。可以看到，在 $N$ 为 393.2K 时，训练数据超过 $10^8$ 后，性能就不再有显著提升。而在 $N$ 为 708M 时，训练数据超过 $10^{10}$ 后，性能依然在持续提升。
 
 ![模型参数与数据](./images/01ScalingLaw05.png)
 
@@ -144,33 +144,70 @@ Kaplan et al.发现模型在域外数据上的性能相比于训练集会出现
 为了验证这一结论，作者用更多的训练数据训练了一个参数量更小的模型 Chinchilla (70B)。尽管 Chinchilla 的模型规模远小于 Gopher (280B)、GPT-3 (175B)、Jurassic-1 (178B) 和 Megatron-Turing NLG (530B) 等模型，但实验结果表明，它在众多下游任务中的表现反而更胜一筹。
 
 ![叠加预测](./images/01ScalingLaw06.png)
-![叠加预测](./images/01ScalingLaw13.png)
 
-!!!!!!!!!
-上面这种图片，直接放在 PPT 里面左右一排，然后截图就可以了
+### 3.1 训练曲线包络
 
-### 3.1 固定模型大小，改变训练token数量
+第一种方法通过训练一系列不同规模（参数量从 7000 万到超 100 亿）和不同训练数据量（Token 数）的模型，绘制出训练损失与计算量（FLOPs）的关系曲线（见左下图）。在固定的计算预算下，各曲线的最低损失点（灰色点）构成了最优边界。通过分析这些最优点对应的模型大小（中下图）和训练数据量（右下图），作者得以拟合出最优模型规模和数据量与计算量之间的 Scaling Law。
 
-在第一种方法中，作者改变了一系列模型（参数量从 7000 万到超过 100 亿）的训练步数。
-
-![叠加预测](./images/01ScalingLaw14.png)
+![训练曲线包络](./images/01ScalingLaw14.png)
 
 ### 3.2 IsoFLOP 配置
 
+第二种方法更为直接。该方法在固定的计算量下，系统地探索模型规模与训练数据量之间的权衡关系——即用更多数据训练小模型，或用更少数据训练大模型。通过为每个计算量水平扫描不同的模型与数据组合，可以确定达到最低 loss 的最优配置点（见左下图）。与前一方法类似，通过分析这些最优点对应的模型规模（中下图）和数据量（右下图），研究者便可以拟合出相应的 Scaling Law。
+
+左下图的每条彩色曲线代表一个固定的计算量，展示了在该计算量下，loss 随模型参数量变化的趋势。可以观察到，每条曲线都呈现出清晰的 U 形：随着模型参数量的增加，损失率先下降后又转为上升。这种现象揭示了一个关键的权衡：起初，模型规模的增益（更大的容量）主导了性能提升，使损失降低；但超过一个拐点后，由于计算预算固定，更大的模型必然意味着训练数据量的减少，训练不足的负面效应开始凸显，从而导致损失反弹。
+
+![IsoFLOP](./images/01ScalingLaw15.png)
+
 ### 3.3 拟合参数化损失函数
 
-## 4. Emergence Law 涌现定律
+最后一种方法则试图直接拟合一个 loss 与数据量和模型规模的函数（见左下图）。根据图中的虚线可以绘制出上一个方法的 IsoFLOP 曲线。但可以看到拟合的结果不如上一个方法的好。
+
+![拟合参数化损失函数](./images/01ScalingLaw16.png)
+
+下表展示了不同方法的拟合结果，可以看出第三个方法的结果和前两个的不太一致。
+
+![拟合结果](./images/01ScalingLaw17.png)
+
+## 4. Emergence Abilities 涌现规则
+
+前文的 Scaling Law 揭示了模型性能随规模扩大而平滑、可预测地提升。然而，[Emergent Abilities of Large Language Models](https://arxiv.org/abs/2206.07682) 一文指出了另一种截然不同的现象：大语言模型的“涌现能力”（Emergent Abilities）。
+
+所谓“涌现”，是指某项能力在小规模模型中尚不显现，但当模型规模突破某一临界点后，性能会突然出现非线性的、跃迁式的增长。由于这种不可预测性，我们无法简单地通过外推小模型的性能曲线来预见大模型可能具备的新能力。
+
+### 4.1 少样本提示中的涌现能力
+
+如下图所示，在少样本提示中，预训练的语言模型被给予一个任务提示和示例并完成响应，而无需进一步训练或对其参数进行梯度更新。
+
+![提示任务](./images/01ScalingLaw18.png)
+
+下图展示了模型在不同任务上随模型规模的性能变化，可以看到在突破规模的临界点后，表现大幅度提升。
+
+![提示任务性能](./images/01ScalingLaw19.png)
+
+### 4.2 增强提示
+
+模型的涌现能力不仅体现在少样本提示上，也体现在某些增强性提示或微调技术的有效性上。如果一种技术只有在模型规模达到一定阈值后才能显著提升性能，那么这种技术本身的有效性也被视为一种涌现。
+
+下图清晰地展示了这一点：无论是思维链提示（Chain-of-Thought）、指令微调（Instruction Tuning）还是模型校准（Calibration）等策略，它们对小模型的性能几乎没有助益，但一旦模型规模跨过临界点，便能带来显著的性能飞跃。
+
+![增强提示](./images/01ScalingLaw20.png)
+
+### 4.3 涌现现象的潜在解释
+
+关于为什么会出现涌现能力，作者提出了一个直观的猜想：某个多步推理任务需要 $l$ 步计算，那么模型可能需要 $O(l)$ 层的深度。同时，很自然地可以推测，更多的参数和更长的训练时间有助于模型记忆更多的知识。
 
-!!!!!!!! 《Predicting Emergent Capabilities by Finetuning》
+## 5. 总结与思考
 
-## 总结与思考
+本文系统性地探讨了大型语言模型领域的两大核心定律：Scaling Law 与 Emergence Abilities。Scaling Law 揭示了模型性能与模型规模、数据量及计算资源之间存在着可预测的幂律关系。Chinchilla 定律则在此基础上进行了关键修正，指出在固定计算预算下，模型与数据规模的同等扩展才是最优资源分配策略。
 
-!!!!!!很赞，一段话简单总结本文要概述的内容。如 Chinchilla 定律和涌现定律是目前大模型领域最具影响力的量化理论，分别解决了资源分配和能力预测问题。
+与 Scaling Law 的平滑可预测性相对，Emergence Abilities 描述了当模型规模突破某个临界点后，性能会大幅提升的现象。这两大定律共同构成了当前我们理解和构建大模型的基础：前者指导我们如何高效地分配有限资源以达到最佳性能，后者则揭示了通往更强人工智能的道路上充满着未知的可能性与惊喜。
 
-## 参考资料
+## 参考与引用
 
 - [Scaling Laws for Neural Language Models -Kaplan et al.](https://arxiv.org/abs/2001.08361)
 - [Training Compute-Optimal Large Language Models -Hoffmann et al.](https://arxiv.org/abs/2203.15556)
 - [Predictable Scale: Part I, Step Law – Optimal Hyperparameter Scaling Law in Large Language Model Pre-training -Li et al.](https://arxiv.org/abs/2503.04715)
 - [Deep Dive into LLMs like ChatGPT -Andrej Karpathy](https://www.youtube.com/watch?v=7xTGNNLPyMI)
 - [和张祥雨聊，多模态研究的挣扎史和未来两年的 2 个“GPT-4 时刻” -张小珺 Jùn｜商业访谈录](https://www.xiaoyuzhoufm.com/episode/683d2ceb38dcc57c641a7d0f)
+- [Emergent Abilities of Large Language Models](https://arxiv.org/abs/2206.07682)
@@ -1,9 +1,64 @@
 <!--Copyright © ZOMI 适用于[License](https://github.com/Infrasys-AI/AIInfra)版权许可-->
 
-# 03.Inference Time Scaling
+# 03. Inference Time Scaling
 
-> 这个内容还没有，非常希望您参与到这个开源项目中，B 站给 ZOMI 留言哦！
+> Author by：侯宇博
 
-## 视频
+推理端的 scaling law 更关注 推理延迟、显存、计算复杂度随模型规模和上下文长度变化的规律。其中 Inference/test time scaling，其核心思想是在模型推理（Inference）阶段，通过投入更多计算资源以生成更多的输出 token，进而增强模型的逻辑推理（Reasoning）能力。
 
-> 这个内容还没有，非常希望您参与到这个开源项目中，B 站给 ZOMI 留言哦！
+该方法的基本原理在于，生成单个 token 的过程（即一次模型前向传播）所包含的计算量是固定的。对于需要多步逻辑推演的复杂问题，模型无法在单次计算中完成求解。因此，必须通过生成一系列包含中间步骤的文本（即更多的 token），来逐步展开其“思考”过程，从而解决问题。
+
+那么有哪些方法可以帮助模型产生中间推理步骤呢？
+
+## 1 优化推理输入：思维链提示
+
+思维链提示（Chain-of-Thought Prompting）通过在少样本示例中展示一系列中间推理步骤，而不仅仅是最终答案，来引导大型语言模型在解决问题时，也自主地生成类似的“思考过程”，从而释放其内在的复杂推理潜力。
+
+![COT](./images/02TTScaling01.png)
+
+然而，思维链提示需要为特定任务精心设计推理示例，这限制了其通用性与易用性。一个自然而然的问题是：能否让模型在没有任何范例的情况下，仅根据问题本身就自动生成思维链？
+
+## 2 通过后训练优化推理能力
+
+为了让模型能自主生成更高质量的推理过程，研究者们首先尝试在包含推理轨迹的数据集上进行监督微调（SFT），以引导模型产生中间推理步骤。
+进一步地，为提升每个推理步骤的准确性，研究者们引入了过程监督奖励模型（Process-supervised Reward Model, PRM）。PRM 负责对推理链中的每一步进行打分，从而精细地评估其质量，并据此指导模型生成更优的推理路径。这种指导作用主要体现在两个方面：数据筛选与推理时优化。
+
+### 2.1 数据筛选与模型迭代
+通过对模型生成的推理路径进行评分，可以筛选出高质量的推理数据，用于下一阶段的模型训练，从而实现性能的持续迭代优化。
+
+### 2.2 推理时决策优化
+在推理阶段，可以让模型针对同一问题生成多个候选答案（即推理路径），并利用 PRM 从中选择评分最高的一条作为最终输出。这个过程通常依赖于特定的搜索算法来高效地探索可能的推理空间。下面介绍三种常用的搜索方案。
+
+![PRM search](./images/02TTScaling02.png)
+
+#### 2.2.1 最优解采样（Best-of-N）
+该方法首先针对一个给定的问题，独立采样生成 N 个完整的解答（推理路径）。随后，PRM 对这 N 个解答的每一步进行评估并计算累积得分。最终，选择总分最高的那个解答作为最终输出。
+
+#### 2.2.2 集束搜索（Beam Search）
+这个方法在推理的每一步都维持一个包含 M 个候选路径（即“集束”）的集合。具体来说，从问题开始，模型首先生成 N 个可能的“第一步”推理。PRM 对这 N 个第一步进行评分，并保留得分最高的 M 个。在下一步中，从这 M 个路径出发，各自再生成 N 个后续步骤，并再次进行评分和筛选，始终保持集束大小为 M。这个过程不断迭代，直到生成完整的解答。
+
+#### 2.2.3 前瞻搜索（Lookahead Search）
+前瞻搜索的核心思想是通过“预演”未来的推理步骤来评估当前步骤的优劣。在选择“第一步”时，算法会先生成 N 个候选步骤。对于每个候选，它会继续向前探索生成 K 个后续步骤（形成一条短路径）。然后，PRM 仅评估这条短路径的最终状态（最后一个step）。得分最高的 M 个最终状态所对应的“第一步”被认为是最佳选择并被保留下来。算法从这些被选中的步骤出发，重复此过程，直到构建出完整的解答。
+
+### 2.3 强化学习指导的推理
+
+以上介绍的方法对模型推理能力的提升有限。PRM依赖对中间步骤的细粒度奖励，但标注成本高且易受奖励劫持（Reward Hacking）影响。
+而搜索算法在复杂任务中面临搜索空间爆炸问题，难以规模化。
+
+OpenAI 的 o1 系列模型通过增加思维链推理过程的长度来提升推理能力，但并没有公开训练方法。以上的方法中还没有一种能够达到与 OpenAI 的 o1 系列模型相当的一般推理性能。
+
+[Inference-Time Scaling for Generalist Reward Modeling](https://arxiv.org/abs/2504.02495)
+
+## 3 Agent中的Inference Time Scaling
+
+[Deep researcher with test-time diffusion](https://research.google/blog/deep-researcher-with-test-time-diffusion/)
+
+## 参考资料
+
+- [Chain-of-Thought Prompting Elicits Reasoning in Large Language Models](https://arxiv.org/abs/2201.11903)
+- [Let's Verify Step by Step](https://arxiv.org/abs/2305.20050)
+- [Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters](https://arxiv.org/abs/2408.03314)
+- [Learning to reason with llms](https://openai.com/index/learning-to-reason-with-llms/)
+- [DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning](https://arxiv.org/abs/2501.12948)
+- [Inference-Time Scaling for Generalist Reward Modeling](https://arxiv.org/abs/2504.02495)
+- [Deep researcher with test-time diffusion](https://research.google/blog/deep-researcher-with-test-time-diffusion/)
@@ -1,6 +1,8 @@
 <!--Copyright © ZOMI 适用于[License](https://github.com/Infrasys-AI/AIInfra)版权许可-->
 
-# 04.大模型训练与 AI Infra
+# 04.大模型训练与 AI Infra(DONE)
+
+> Author by: ZOMI
 
 当斯坦福大学《2025 年人工智能指数报告》披露谷歌 Gemini 1.0 Ultra 的训练成本高达 1.92 亿美元，而同期 GPT-3.5 级系统推理成本两年内骤降 280 倍时，AI 技术迭代背后，是 AI 基础设施（AI Infra）与大模型训练的深度绑定。
 
@@ -197,7 +199,7 @@ AI Infra 是 “硬件 - 系统软件 - 工具链” 的多层架构，每一层
 
 对研究者与工程师而言，理解二者协同逻辑，是把握 AI 技术方向的关键。唯有持续推动 AI Infra 创新与生态建设——如突破光子计算瓶颈、完善跨平台标准化、构建全球算力协同网络，才能充分释放大模型潜力，推动 AI 从 “技术突破” 走向 “产业普惠”。
 
-## 参考文献
+## 参考与引用
 
 1. Shoeybi, M., et al. (2021). Megatron-LM: Training multi-billion parameter language models using model parallelism. *arXiv preprint arXiv:1909.08053*.
 2. Rajbhandari, S., et al. (2020). ZeRO: Memory optimization towards training trillion parameter models. *arXiv preprint arXiv:1910.02054*.
@@ -209,7 +211,3 @@ AI Infra 是 “硬件 - 系统软件 - 工具链” 的多层架构，每一层
 8. Du, J., et al. (2022). GLaM: Efficient scaling of language models with mixture-of-experts. *arXiv preprint arXiv:2112.06905*.
 9. Stanford University. (2025). *AI Index Report 2025*. Stanford HAI.
 10. Gartner. (2025). *AI Infrastructure: Technology Definition and Market Guide*. Gartner Research.
-
-## 视频
-
-> 这个内容还没有，非常希望您参与到这个开源项目中，B 站给 ZOMI 留言哦！
@@ -1,6 +1,8 @@
 <!--Copyright © ZOMI 适用于[License](https://github.com/Infrasys-AI/AIInfra)版权许可-->
 
-# 05.大模型推理与 AI Infra
+# 05.大模型推理与 AI Infra(DONE)
+
+> Author by: ZOMI
 
 当大模型从实验室走向产业应用，能跑通已不再是目标，**如何让模型在成本可控的前提下，以低延迟、高吞吐的姿态稳定对外提供大模型服务**，成为大模型落地成败的关键。这一转变背后，大模型推理的技术正经历深刻重构：**传统推理引擎被新一代大模型推理引擎取代，大模型推理算力向云端大算力+端侧轻算力异构延伸**。
 
@@ -357,7 +359,7 @@ Token Parallel 则针对**长序列推理瓶颈**：传统单卡处理长序列
 
 过去，CUDA 生态构建了 NVIDIA 的壁垒；未来，异构兼容、端云智能协同等推理将成为 AI Infra 的核心方向。对于开发者而言，理解推理全流程的每个环节需要 AI Infra 哪一层支撑，是把握 AI 趋势的关键。大模型的价值最终要通过推理落地实现，而 AI Infra 正是让这一价值的重要引擎。
 
-## 参考文献
+## 参考与引用
 
 - [1] OpenAI. *AI and Compute*. 2018. https://openai.com/research/ai-and-compute
 - [2] Narayanan, D., et al. *Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM*. SC 2021. https://arxiv.org/abs/2104.04473
@@ -387,13 +389,9 @@ Token Parallel 则针对**长序列推理瓶颈**：传统单卡处理长序列
 - [26] OWASP. *AI Security and Privacy Guide*. 2024. https://owasp.org/www-project-ai-security
 - [27] Apple. *A18 Pro Neural Engine: On-Device AI Performance*. 2024. https://www.apple.com/ios/ios-18
 - [28] OpenAI. *Streaming and Sampling Strategies for GPT Models*. 2023. https://platform.openai.com/docs/guides/text-generation
-- [C-1] 人工智能数据工程中心.《李飞飞团队年度报告揭底大模型成本：Gemini Ultra是GPT-4的2.5倍》. 2024-04-17. https://aidc.shisu.edu.cn/c2/c1/c13626a180929/page.htm  
+- [C-1] 人工智能数据工程中心.《李飞飞团队年度报告揭底大模型成本：Gemini Ultra 是 GPT-4 的 2.5 倍》. 2024-04-17. https://aidc.shisu.edu.cn/c2/c1/c13626a180929/page.htm  
 - [C-2] 知乎专栏.《大模型的成本和效率》. 2025-03-18. https://zhuanlan.zhihu.com/p/31033488927  
-- [C-3] AIbase.《AI成本结构极端分化：训练烧钱与推理低价的商业困局》. 2025-08-23. https://www.aibase.com/zh/news/18660  
-- [C-4] 搜狐科技.《打破效率与成本的权衡：数据中心中AI推理的未来》. 2025-02-13. https://www.sohu.com/a/858654161_121902920  
-- [C-5] CSDN博客.《AI大模型训练成本到底有多大？》. 2024-06-06. https://blog.csdn.net/giszz/article/details/139506830  
-- [C-6] AI工具箱.《AI成本结构极端分化：训练烧钱与推理低价的商业困局》. 2025-06-06. https://ai-kit.cn/14668.html
-
-## 视频
-
-> 这个内容还没有，非常希望您参与到这个开源项目中，B 站给 ZOMI 留言哦！
+- [C-3] AIbase.《AI 成本结构极端分化：训练烧钱与推理低价的商业困局》. 2025-08-23. https://www.aibase.com/zh/news/18660  
+- [C-4] 搜狐科技.《打破效率与成本的权衡：数据中心中 AI 推理的未来》. 2025-02-13. https://www.sohu.com/a/858654161_121902920  
+- [C-5] CSDN 博客.《AI 大模型训练成本到底有多大？》. 2024-06-06. https://blog.csdn.net/giszz/article/details/139506830  
+- [C-6] AI 工具箱.《AI 成本结构极端分化：训练烧钱与推理低价的商业困局》. 2025-06-06. https://ai-kit.cn/14668.html