第1节：Transformer基础¶

Day 1: Attention机制 + FFN技术深入理解
Day 2: 编码器-解码器架构 + 语言模型架构对比
Day 3: Tokenizer技术 + 综合实践与复习

🎯 学习目标¶

掌握Transformer架构的核心概念，理解Attention机制原理，区分不同的语言模型架构，为面试做好基础准备。

重点面试问题预览： - Attention计算公式和原理 - FFN在Transformer中的作用 - Encoder-Only vs Decoder-Only架构差异 - 为什么主流大模型选择Decoder-Only - GPT和BERT的架构区别 - BPE和WordPiece的区别

建议学习时间：3天

完成以下三项才算掌握本节：

选择一个子模块开始你的学习之旅！建议按顺序学习，每个模块都包含精选的阅读材料、视频资源和实战练习。