斯坦福CS336:从零开始的语言模型
目录
为什么系统爱好者都应该学习大模型?
在当今AI技术浪潮中,掌握大模型知识已成为系统开发者的必备技能。通过参与斯坦福CS336大模型系统课程,开始从零构建大模型的实践之旅。这门课程很可能在未来3年内成为系统领域的标杆课程(正如CMU 15-445数据库课程近年来的地位)。
作业1:微型语言模型实现
通过以下三个小节实现了一个小型语言模型。
- Tokenizer设计与实现
- 模型架构编码(含Self-Attention机制)
- 优化器开发
作业地址: Assignment1-Basics GitHub仓库
接下来我将分享完成作业的一部分细节和心得。