跳转至

第1节:Transformer基础

🎯 学习目标

掌握Transformer架构的核心概念,理解Attention机制原理,区分不同的语言模型架构,为面试做好基础准备。

重点面试问题预览: - Attention计算公式和原理 - FFN在Transformer中的作用 - Encoder-Only vs Decoder-Only架构差异 - 为什么主流大模型选择Decoder-Only - GPT和BERT的架构区别 - BPE和WordPiece的区别

📅 学习计划

建议学习时间:3天

  • Day 1: Attention机制 + FFN技术深入理解
  • Day 2: 编码器-解码器架构 + 语言模型架构对比
  • Day 3: Tokenizer技术 + 综合实践与复习

📚 学习路径

1. Attention机制

  • 自注意力计算公式推导
  • Softmax和缩放因子作用
  • 多头注意力机制
  • 代码实现练习

2. 前馈神经网络

  • FFN结构和功能原理
  • 激活函数演进(ReLU→GELU→SwiGLU)
  • 知识存储机制
  • 与注意力的互补关系

3. 编码器-解码器架构

  • 原始Transformer完整架构
  • 三种注意力机制详解
  • 掩码机制和交叉注意力
  • 现代架构演进趋势

4. 语言模型架构

  • Encoder-Only vs Decoder-Only
  • GPT vs BERT架构对比
  • 主流模型选择分析
  • 模型架构图解

5. Tokenizer技术

  • BPE/WordPiece/Unigram算法对比
  • Byte-level BPE现代方案
  • 实际工程应用和优化
  • 多语言处理策略

✅ 学习检验标准

完成以下三项才算掌握本节:

  1. 问题解答: 能用自己的话回答所有6个核心面试问题
  2. 代码实现: 完成Self-Attention、FFN、Tokenizer的编程练习
  3. 架构理解: 能画出并解释完整的Transformer架构图

🚀 开始学习

选择一个子模块开始你的学习之旅!建议按顺序学习,每个模块都包含精选的阅读材料、视频资源和实战练习。