从零构建大语言模型(第一章)

从零构建大语言模型(第一章)

Published on May 25
37分钟
周六9点半
0:00
0:00
<h2>从零构建大语言模型(第一章)欢迎收听“周六九点半”!本期节目,我们一起深入探讨了如何从零开始构建大语言模型。我们以《从零开始构建大语言模型》这本书的第一章为基础。节目的相关资料,包括本书的中文译本链接,都可以在节目下方找到。本期要点速览选择大模型学习路径:为何学习大模型: 嘉宾表示,大模型已无处不在,作为一名数学背景的从业者,希望能深入理解其底层逻辑,从而更好地使用和掌控 AI 产品,避免盲目使用。<br> 书籍选择:《从零开始构建大语言模型》。这本书的亮点在于它从零开始教授如何构建 LMM,包括亲手实现 Self-Attention 机制和预训练过程。本书更侧重代码实践而非复杂的理论公式,适合希望通过动手实践理解 LMM 搭建过程的读者。大语言模型的基础构建:数据来源与质量: 大模型的训练数据主要来源于网络爬虫,其中 Wikipedia 被认为是高质量数据的来源。尽管 Wikipedia 数据量相对较小(约 500GB),但其人工审核确保了数据质量,而网络爬取的数据虽然量大,但质量参差不齐。<br> 数据中的“噪音”: 嘉宾讨论了数据中存在大量噪音(如 Common Crawl)是否会影响模型性能的问题。实验表明,神经网络即使在 50% 的随机标签数据下,也能保持较高准确率,暗示高质量数据并非绝对必要,模型对噪音有一定容忍度。Transformer 架构的演变:Encoder 与 Decoder: 讨论了 Transformer 架构中的 Encoder(编码器)和 Decoder(解码器)在不同模型中的应用。<br> <br> BERT 与 GPT 的区别:BERT: 采用 Encoder 架构,通过“完形填空”的方式预测被遮蔽的词语,训练方式是预训练一个通用模型再进行微调。<br> GPT: 仅采用 Decoder 架构,通过 Next Token Prediction(预测下一个词)的方式进行训练。嘉宾认为 GPT 的这种训练方式更直观地模仿了人类对话模式,也更容易实现通用智能。<br> 早期实践与理解: 嘉宾分享了早期使用 Attention 机制的经验,发现其在序列较短时效果不佳,但在长序列任务中才能发挥优势。大模型的训练与微调:预训练(Pre-training): 大模型通过在海量数据集上进行无监督的 Next Token Prediction...