从零构建大语言模型（第一章） - 周六9点半

<h2>从零构建大语言模型（第一章）欢迎收听“周六九点半”！本期节目，我们一起深入探讨了如何从零开始构建大语言模型。我们以《从零开始构建大语言模型》这本书的第一章为基础。节目的相关资料，包括本书的中文译本链接，都可以在节目下方找到。本期要点速览选择大模型学习路径：为何学习大模型：嘉宾表示，大模型已无处不在，作为一名数学背景的从业者，希望能深入理解其底层逻辑，从而更好地使用和掌控 AI 产品，避免盲目使用。 书籍选择：《从零开始构建大语言模型》。这本书的亮点在于它从零开始教授如何构建 LMM，包括亲手实现 Self-Attention 机制和预训练过程。本书更侧重代码实践而非复杂的理论公式，适合希望通过动手实践理解 LMM 搭建过程的读者。大语言模型的基础构建：数据来源与质量：大模型的训练数据主要来源于网络爬虫，其中 Wikipedia 被认为是高质量数据的来源。尽管 Wikipedia 数据量相对较小（约 500GB），但其人工审核确保了数据质量，而网络爬取的数据虽然量大，但质量参差不齐。 数据中的“噪音”：嘉宾讨论了数据中存在大量噪音（如 Common Crawl）是否会影响模型性能的问题。实验表明，神经网络即使在 50% 的随机标签数据下，也能保持较高准确率，暗示高质量数据并非绝对必要，模型对噪音有一定容忍度。Transformer 架构的演变：Encoder 与 Decoder：讨论了 Transformer 架构中的 Encoder（编码器）和 Decoder（解码器）在不同模型中的应用。 BERT 与 GPT 的区别：BERT：采用 Encoder 架构，通过“完形填空”的方式预测被遮蔽的词语，训练方式是预训练一个通用模型再进行微调。 GPT：仅采用 Decoder 架构，通过 Next Token Prediction（预测下一个词）的方式进行训练。嘉宾认为 GPT 的这种训练方式更直观地模仿了人类对话模式，也更容易实现通用智能。 早期实践与理解：嘉宾分享了早期使用 Attention 机制的经验，发现其在序列较短时效果不佳，但在长序列任务中才能发挥优势。大模型的训练与微调：预训练（Pre-training）：大模型通过在海量数据集上进行无监督的 Next Token Prediction...