第1节:Transformer基础¶
🎯 学习目标¶
掌握Transformer架构的核心概念,理解Attention机制原理,区分不同的语言模型架构,为面试做好基础准备。
重点面试问题预览: - Attention计算公式和原理 - FFN在Transformer中的作用 - Encoder-Only vs Decoder-Only架构差异 - 为什么主流大模型选择Decoder-Only - GPT和BERT的架构区别 - BPE和WordPiece的区别
📅 学习计划¶
建议学习时间:3天
- Day 1: Attention机制 + FFN技术深入理解
- Day 2: 编码器-解码器架构 + 语言模型架构对比
- Day 3: Tokenizer技术 + 综合实践与复习
📚 学习路径¶
1. Attention机制¶
- 自注意力计算公式推导
- Softmax和缩放因子作用
- 多头注意力机制
- 代码实现练习
2. 前馈神经网络¶
- FFN结构和功能原理
- 激活函数演进(ReLU→GELU→SwiGLU)
- 知识存储机制
- 与注意力的互补关系
3. 编码器-解码器架构¶
- 原始Transformer完整架构
- 三种注意力机制详解
- 掩码机制和交叉注意力
- 现代架构演进趋势
4. 语言模型架构¶
- Encoder-Only vs Decoder-Only
- GPT vs BERT架构对比
- 主流模型选择分析
- 模型架构图解
5. Tokenizer技术¶
- BPE/WordPiece/Unigram算法对比
- Byte-level BPE现代方案
- 实际工程应用和优化
- 多语言处理策略
✅ 学习检验标准¶
完成以下三项才算掌握本节:
- 问题解答: 能用自己的话回答所有6个核心面试问题
- 代码实现: 完成Self-Attention、FFN、Tokenizer的编程练习
- 架构理解: 能画出并解释完整的Transformer架构图
🚀 开始学习¶
选择一个子模块开始你的学习之旅!建议按顺序学习,每个模块都包含精选的阅读材料、视频资源和实战练习。