本项目围绕 DeepLearning.AI 出品的 Post-Training for LLMs 系列课程打造中文翻译与知识整理教程。我们提供课程内容翻译、知识点梳理和示例代码,旨在降低语言门槛,帮助学生、研究人员和开发者系统掌握大语言模型(LLM)后训练阶段的核心技术与实践方法。
在线视频课程地址: DeepLearning.AI - Post-training of LLMs
- 对 LLM 优化与落地应用感兴趣的学习者。
- 希望深入理解并掌握模型后训练方法的同学与研究者。
- 计划结合后训练技术打造领域专用模型的团队与开发者。
- 正在寻找系统化学习资源的在校学生与入门者。
- 权威课程,本土化翻译:精准翻译 DeepLearning.AI 官方前沿课程,打破语言壁垒,为国内学习者提供原汁原味且易于理解的 LLM 后训练核心知识。
- 系统梳理后训练核心技术:聚焦 SFT、DPO、Online RL 等关键环节,将碎片知识系统化,帮助学习者构建从理论到实践的完整知识体系。
- 理论与实践并重:提供配套可运行的代码示例,强化动手能力,确保学习者不仅能“看懂”,更能“上手”,为开发领域专用模型打下基础。
章节 | 负责人 | 预估完成时间 | 状态 |
---|---|---|---|
1.1 课程介绍 | 李柯辰 | 10.7 | ✅ |
1.2 后训练技术介绍 | 李柯辰 | 10.7 | ✅ |
2.1 监督微调基础理论 | 朱广恩 | 10.7 | ✅ |
2.2 监督微调实践 | 王泽宇 | 10.7 | ✅ |
3.1 直接偏好优化基础理论 | 王海洪 | 10.7 | ✅ |
3.2 直接偏好优化实践 | 张宏历 | 10.7 | ✅ |
4.1 在线强化学习基础理论 | 朱伯湘 | 10.7 | ✅ |
4.2 在线强化学习实践 | 蔡煊琪,朱伯湘 | 10.7 | ✅ |
5.1 总结 | 张宏历 | 10.7 | ✅ |
- 特别感谢 @Datawhale 对本项目的支持
- 如果有任何想法可以联系我们,也欢迎大家多多提出 issue
- 特别感谢以下为教程做出贡献的同学!
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。
注:默认使用CC 4.0协议,也可根据自身项目情况选用其他协议