Technology

猿来如此

作者: 张赫

最近更新: 3天前

这里没有高深的理论，只有和你一样关心科技和生活的普通人。每一期，我用最简单的语言聊聊新技术、行业故事，还有那些让人会心一笑的小发现。关注《猿来如此》，和我一起，慢慢变好。

Recent Episodes

万亿 Token 揭秘：除了写代码，原来大家都在用 AI 搞“角色扮演”？

本期播客来自 OpenRouter 和 a16z 的实证研究，基于对该平台超过 100 万亿个代币的大型语言模型（LLM）交互数据进行分析。研究指出，自从 o1 等推理模型发布以来，LLM 的使用范式已发生重大转变，向着多步骤、复杂化的代理式推理工作流程演进，体现在工具调用和更长的序列长度上。在应用类别方面，编程已成为最主要的专业工作负载，而创意角色扮演则在开源模型的使用量中占据了最大份额。报告观察到一个结构性的多模型生态系统，开源模型生态正在迅速扩张并变得多元化，尤其在亚洲地区和中国开发者的推动下。此外，对用户留存的分析揭示了“灰姑娘水晶鞋效应”，表明模型如果在发布之初完美契合高价值工作负载，就能获得持久稳定的用户群。这些发现共同突显出，模型能力、使用场景和成本与用量的复杂平衡关系决定了 LLM 在现实世界中的采纳路径。

3天前

17分钟

Ilya Sutskever 谈 AI 为何高分低能与终极智能形态

本期播客概述了关于人工智能现状与未来发展方向的深刻对话。讨论的核心在于当前大型语言模型 (LLM) 在评估中的优异表现与其对经济影响的滞后之间存在的费解脱节，并认为随着数据的限制，单纯依靠规模化 (scaling) 的时代正走向终结。对话重点强调需要重新回归研究时代 (age of research)，以解决模型在泛化能力 (generalization) 和样本效率 (sample efficiency) 方面的根本缺陷，这是目前 AI 与人类学习能力相比的不足之处。通过借鉴人类情感 (emotions) 在进化中作为指导价值函数的作用，他们探讨了诸如价值函数 (value functions) 和强化学习 (RL) 等技术可能提高模型学习效率。最终，两位人士讨论了超级智能 (superintelligence) 必然到来以及如何确保其安全部署 (safe deployment) 的问题，呼吁所有领先公司应收敛于共同的对齐策略 (alignment strategies)，使 AI 关心所有有情生命。

3周前

16分钟

三百万美元的教训：Cortex 如何走向失败和重生

本期播客摘录自 YouTube 频道“Dan Koe”的视频“Kortex：300 万美元的错误”的文字记录，主要讨论了其初创公司在开发名为 Cortex 的“第二大脑”应用程序时所犯的错误。创作者和联合创始人解释了 Cortex 如何因不适当的团队结构和构建自己的技术而非使用第三方解决方案等原因导致开发速度放缓，最终使其无法跟上市场步伐。因此，他们秘密地从零开始重建了应用程序并将其更名为 Eden，这个新产品专注于为创作者提供强大的搜索和媒体处理能力，旨在通过学习过去的失误来加速迭代。该团队强调了承担大风险的必要性，以及在创业过程中承认和改正错误是成功的关键。

3周前

20分钟

Yann LeCun 要干的 Advanced Machine Intelligence (AMI) 到底是个啥？

本期播客主要关注两个截然不同的领域：人工智能（AI）的发展及其伦理考量，以及公用事业中智能电网技术，特别是高级计量基础设施（AMI）的部署和益处。关于 AI，文本讨论了自主机器智能的架构，例如 Yann LeCun 提出的微分模块和分层联合嵌入预测架构（JEPA）模型，并探讨了通用人工智能（AGI）的定义和时间表，这在 AI 专家中存在争议。AI 伦理是一个重要主题，重点是 AI 偏见（如性别和政治偏见）、责任归属问题，以及监管工作的必要性（例如欧盟的《AI 法案》和美国的倡议），此外还讨论了赋予机器人**“电子人格”的伦理问题。在公用事业方面，美国能源部的报告详细介绍了 AMI 和客户系统从“智能电网投资赠款”（SGIG）计划中获得的成果，展示了该技术带来的运营效率、成本节约**（例如减少“上门服务”）和改进的客户服务，并强调了系统集成（如与计费和停电管理系统）的关键性。同时，另一些文件也提到 AMI 与高级配电管理系统（ADMS）结合的重要性，以应对日益复杂的电网挑战。

3周前

17分钟

谷歌 Gemini 3 Pro 技术革命三支柱解析

本期播客概述了 Google Gemini 3 Pro 模型的发布及其技术能力，将其定位为公司迄今为止最智能的模型。资料重点介绍了该模型的 Sparse Mixture of Experts (MoE) 架构和高达 100 万令牌（Token）的巨大上下文窗口，这使其能够处理大规模、多模态的输入，包括文本、代码、图像、音频和视频。此外，文档详细介绍了 Gemini 3 Pro 卓越的 Agentic 工作流程和编码能力，例如通过命令行界面（CLI）进行复杂的跨工具调试，以及将手绘草图转换为功能代码。最后，资料还讨论了使用该模型时的成本优化策略（如上下文缓存和 thinking_level 参数）以及严格的安全指南，以确保负责任的部署。

4周前

16分钟

告别四十小时工作制，像达尔文一样高效

本期播客是一段 YouTube 视频的摘录，视频作者 Dan Koe 讨论了 40 小时工作制的消亡，并认为其是一个“数学骗局”。作者主张短工作日，认为效率和产出质量比工作时长更为重要，并以查尔斯·达尔文为例，说明成功人士通过更少的身体劳动和更多的精神工作（思考、策划）来实现成就。视频旨在指导观众摆脱 9-5 工作的束缚，回归到自我导向的、充满活力和意义的“工匠式”工作中，这在技术进步的现代比以往任何时候都更容易实现。作者提供了实现这一目标的三个核心建议：认识到伟大工作不受时间限制、专注建立受众和产品，以及创造自己想看到的产品来解决问题。

4周前

16分钟

Cursor 创始人访谈：爆火背后的战略与用人术

本期播客是 YouTube 频道“a16z”上关于 Cursor 联合创始人兼首席执行官 Michael Truell 的视频访谈摘录，讨论了其公司在人工智能（AI）编码领域的发展历程。Truell 分享了 Cursor 的起源故事，包括从一个不成功的机械工程 AI 项目转向编程的经历，以及其早期成功归功于对 VS Code 集成的专注。讨论还涵盖了公司在处理快速增长和规模化方面的挑战，如应对 API 提供商的限制和多云基础设施的策略。此外，他详细阐述了 Cursor 独特的招聘流程、转向多产品战略的必要性，以及利用人才收购（M&A）作为获取顶尖人才和扩展产品线的工具。

4周前

11分钟

TOON 如何用元信息省钱并提高 AI 准确率

本期播客是一份 GitHub 存储库的摘录，重点介绍了一种名为 TOON (Token-Oriented Object Notation) 的新数据序列化格式。TOON 的设计目的是作为 JSON 的一种更紧凑、更节省 Token 的替代方案，专门用于 LLM (大型语言模型) 提示输入。文中详细解释了 TOON 的语法特性，例如其表格数组结构和缩进格式（类似于 YAML），并提供了一系列基准测试，这些测试结果表明 TOON 在 LLM 数据检索准确性和 Token 效率方面优于标准的 JSON、YAML 和 XML 格式。此外，该来源还提供了用于编码和解码 TOON 数据的 TypeScript SDK 和命令行工具的安装和使用说明。

4周前

15分钟

扎克伯格基金为何要卖铲子治愈所有疾病

本期播客摘自 YouTube 频道 a16z 上关于“马克·扎克伯格与普莉希拉·陈：AI 将如何治愈所有疾病”视频的采访记录，其中马克·扎克伯格和普莉希拉·陈讨论了陈 - 扎克伯格倡议（CZI）的工作。他们的核心目标是加速基础科学研究的步伐，以在本世纪末治愈和预防所有疾病。实现这一雄心壮志的关键策略在于开发新型科学工具，尤其是利用人工智能（AI）构建虚拟细胞模型和标准化数据，来帮助科学家们进行更高效、高风险的实验。他们强调了跨学科合作以及建立开放资源（如 Cell by Gene）对于整个科学界的价值，并认为 AI 的进步将使得实现这一目标的时间表大大提前。

4周前

13分钟

提示工程最佳实践指南

本期播客摘自一篇来自 Claude 团队的博客文章，主题为提示工程的最佳实践，旨在帮助用户从大型语言模型（LLM）中获得更优的输出。文章详细介绍了提高 AI 交互质量的核心技巧，包括保持明确和清晰、提供上下文和动机、具体化指令以及使用示例。此外，内容还涵盖了高级技术，例如思维链提示法和提示链，用于处理复杂的任务，并提出了避免常见错误和故障排除的建议。整篇文章强调，成功的提示工程是上下文工程的基础，关键在于可靠地实现目标。

4周前

23分钟

Claude Skills 如何打破 AI 设计的平庸魔咒

本期播客摘自一篇来自 Claude 博客的文章，重点讨论了如何通过名为 Skills 的功能来显著提升大型语言模型（LLM）生成的网页前端设计的质量。文章指出，LLM 在默认情况下倾向于产生通用且“同质化”的设计（例如使用 Inter 字体和紫色渐变），这种现象被称为分布收敛。Skills 旨在通过允许开发者动态加载包含特定领域指导（如排版、动画和主题）的上下文文档，解决这一问题，从而在需要时提供详细的设计约束，同时又避免了在所有任务中都增加永久性的上下文开销。此外，文章还展示了 Skills 如何帮助 Claude 利用现代工具（如 React 和 Tailwind CSS）构建更复杂、更具功能的交互式代码成品，最终使 Claude 能够生成更具创意和品牌特色的用户界面。

4周前

27分钟

技术创作者的内容永动机：从“艺术灵感”到“工程系统”的进阶指南

本期播客提供了一份面向 AI 与科技领域开发者的系统化“内容永动机”工程指南。这份框架将内容创作视为一个可优化的工程系统，旨在帮助创作者摆脱对“灵感”的依赖，实现高效、可持续的内容产出。系统核心包含五个模块：内容引擎（知识管理），建议开发者采用 Obsidian 和 Notion 混合系统搭建“第二大脑”；系统燃料（创意飞轮），通过主动监控行业趋势和被动收集观众反馈来确保创意源源不断；内容蓝图（策略），建议实施“混合常青”模型，将内容分为概念支柱、终极指南和趋势观点三个层级；AI 生产线（工作流），详述如何利用 Copilot、Descript 等工具将写作和视频制作效率提升十倍；最后是内容放大器，指导创作者将核心“中心内容”高效地复用到多个“辐射内容”中，实现影响力的最大化。

4周前

37分钟

格兰特·李：构建 Gamma 的 AI 演示公司

本期播客摘录自 a16z YouTube 频道上的一段视频，内容是 Gamma 的联合创始人兼首席执行官 Grant Lee 接受访谈，该公司是一款广受欢迎的 AI 演示应用。Lee 讨论了 Gamma 的创业历程，包括早期不成功的融资经历、在大公司竞争激烈的市场中脱颖而出的必要性，以及公司如何实现超过 1 亿用户和实现盈利。他还详细阐述了 Gamma 如何通过关注产品设计和用户体验来打造差异化产品，强调了 AI 时代“一键式”的简单性，并分享了 Gamma 的增长策略、营销理念以及未来向 B2B 和企业领域扩展的计划。

4周前

25分钟

逃离“开发者服务开发者”泡沫：8 次失败血泪史揭示独立开发者赚钱盲区

本期播客摘录自 Reddit 上的 r/indiehackers 子版块，其中一个帖子和大量的评论讨论了独立开发者普遍面临的财务困境。核心观点是许多独立开发者（即独立创业者）陷入了一个“为彼此构建工具”的循环，例如制作登录页生成器或推文调度器，而不是解决传统“无聊”行业中客户愿意付费的实际问题，例如水管工或牙医的需求。评论者普遍认为，真正的金钱在于解决缺乏技术知识的商业人士的痛点，并且强调了进行市场验证、与实际客户沟通以及构建能带来直接财务效益的产品的重要性。整个讨论揭示了独立黑客社区中存在的“构建公共化”陷阱，即过于关注社交媒体曝光而非实际的盈利能力。

5周前

26分钟

十分钟验证百万商机：AI 如何高效挖掘 Reddit 真实抱怨，提炼高密度创业洞察

本期播客摘录自一篇 Reddit 帖子，主要讨论了一位独立开发者如何利用 Claude 等大型语言模型 (LLM) 来快速验证其 SaaS (软件即服务) 创意。作者分享了他通过提示 AI 抓取 Reddit 和 Quora 等平台上的真实用户痛点和抱怨，从而发现了“冷邮件个性化问题”这一市场缺口，并成功推出了名为 Introwarm 的产品，目前实现了每月 2.3k 美元的经常性收入 (MRR)。随后的评论区包含了用户对这种 AI 驱动的市场研究方法的积极反馈、对所使用的详细提示词的分享，以及关于 AI 模型准确性和数据抓取局限性的辩论。总的来说，该内容提供了一种实用的、低成本的初创公司理念验证策略，强调从真实的用户投诉中寻找商业机会。

5周前

22分钟

Omnilingual ASR：支持 1600 多种语言的开源多语言语音识别系统

本期播客概述了一项名为 Omnilingual ASR 的大型多语言自动语音识别（ASR）系统的开发及其功能，该系统旨在为全球 1,600 多种语言提供支持，其中包括 500 多种以前未得到任何 ASR 系统支持的语言。该系统采用了一种新型编码器-解码器架构，通过将自监督预训练扩展到 70 亿个参数，实现了对训练中未见语言的零样本泛化能力。通过结合现有公共资源和社区合作采集的新录音，该项目旨在解决资源匮乏语言的 ASR 覆盖问题，并以一系列开源模型的形式发布，以促进更具包容性和社区驱动的语音技术发展。此外，文章还详细介绍了数据收集、质量保证流程，并提供了针对 Whisper 和 USM 等现有模型的性能比较评估结果。

5周前

20分钟

Rust 和 JavaScript：完美的组合与坑

本期播客摘录自 Jakob Meier 在“Rust Zürisee November 2024”上进行的演讲，主要围绕如何结合使用 Rust 和 JavaScript，特别是通过 WebAssembly (Wasm) 技术。Meier 介绍了他使用 Rust 进行核心逻辑处理和 JavaScript/Svelte 构建用户界面的应用程序架构。演讲的重点工具是 wasm-bindgen，它能自动生成必要的绑定代码，以简化 Rust 和 JavaScript 之间复杂的通信，特别是处理数据类型转换和对象生命周期管理。通过一个鼠标行为检测的演示项目，Meier 展示了在使用 wasm-bindgen 时可能遇到的常见陷阱和跨语言交互带来的独特调试挑战，例如处理所有权转移、指针归零错误、时间戳精度问题以及因 JavaScript 对象默认是引用的而导致的意外数据复制行为。

5周前

21分钟

Claude Agent Skills 深度解析与应用

本期播客对 Anthropic 推出的 Claude Agent Skills 技术的全面解析，将其描述为一种模块化能力，旨在将 Claude 从通用助手转变为特定领域的专家。核心机制在于渐进式公开 (Progressive Disclosure) 架构，它通过三层动态加载知识（元数据、核心指令和资源脚本）来解决大型语言模型（LLM）面临的上下文窗口饱和问题，从而实现极高的 Token 效率。文章详细介绍了 Skill 的文件系统结构（例如包含核心指令 SKILL.md），强调其运行依赖于安全的代码执行环境以确保任务的确定性和可靠性。最后，来源探讨了 Skills 在软件开发中的变革性影响，包括标准化编码实践和实现复杂的代理式 (agentic) 自动化工作流程，并将其与 OpenAI 的功能调用和 LangChain 等其他 AI 框架进行了对比。

2个月前

22分钟

爱彼迎创始人布莱恩·切斯基的创业与人生感悟

本期播客摘录自一段 YouTube 视频，其中包含了爱彼迎（Airbnb）联合创始人兼首席执行官布莱恩·切斯基（Brian Chesky）与访谈者的对话。对话主要围绕切斯基的个人经历和职业生涯展开，从他作为艺术家的童年，到创办爱彼迎的初始阶段，再到公司在冠状病毒大流行期间面临的巨大危机和成功上市（IPO）。切斯基讨论了创业的孤独感、工作与个人生活的平衡，以及他如何学会优先考虑人际关系。他还分享了对公司文化和创造力在商业中重要性的见解，强调了创始人在塑造公司愿景和应对危机中所发挥的独特作用。

2个月前

18分钟

《大雾》

一首比较伤感的歌，送给刚来北京时的我，同时也希望你从此不迷茫。使用 Suno 生成。

2个月前

3分钟

货币的本质、演变与未来数字革命

本期播客阐述了关于货币的本质、演变及其在全球经济中的作用的全面分析。文章首先阐述了货币的四大经典职能（交换媒介、计价单位、价值储存、延期支付标准），并解释了它如何克服了原始的物物交换系统的低效性。随后，文本追溯了货币从具有内在价值的商品货币（如金属）到依赖政府法令的法定货币（如纸币）的历史演变，特别强调了1971年“尼克松冲击”后金本位制的终结。此外，该来源讨论了中央银行如何通过货币政策工具（如利率和公开市场操作）管理经济，同时也探讨了宽松货币政策对经济不平等的加剧作用。最后，文章分析了数字时代的革命，包括比特币等加密货币、稳定币以及各国正在探索的央行数字货币（CBDC），将其总结为一场关于信任和中心化控制的未来之争。

2个月前

32分钟

基于 MCP 的代码执行：构建更高效的智能体

本期播客介绍了 Anthropic 关于通过使用模型上下文协议 (MCP) 实现代码执行来构建更高效 AI 代理的工程解决方案。文章首先指出，尽管 MCP 是连接 AI 代理与外部系统的事实标准，但随着连接工具数量的增加，直接的工具调用会导致工具定义和中间结果消耗过多的上下文令牌，从而降低效率并增加成本。为了解决这一问题，Anthropic 提倡将 MCP 服务器作为代码 API 呈现给代理，允许代理通过编写代码与 MCP 服务器交互，这种方法显著提高了上下文效率，实现了按需加载工具定义和在执行环境中处理数据，从而节省了令牌使用并提升了隐私保护与状态管理能力。原文链接：https://www.anthropic.com/engineering/code-execution-with-mcp

2个月前

24分钟

一起来学 a16z 的《从 AI 伙伴到个人软件的未来展望》

本期播客摘录自YouTube频道“a16z”的播客，重点介绍了Wabby的创始人Eugenia Kuyda关于人工智能（AI）软件的未来的愿景。Kuyda认为，当前的AI界面（如聊天机器人）类似于早期的MS-DOS，并预测即将迎来一个**“Windows/Mac OS时刻”，届时软件将变得深度个性化**、灵活易变，并且能够由非技术用户快速创建，就像用户生成内容（UGC）平台（如YouTube）改变了媒体消费一样。她通过讨论Wabby平台如何允许用户创建满足个人、小众需求的临时“迷你应用”来支持这一观点，强调了超越文本提示界面的直观图形用户界面、共享和协作的重要性，以及AI将从孤立的应用程序转变为深度整合、具有记忆和上下文感知能力的操作系统。

2个月前

23分钟

大型语言模型中涌现的内省意识

本期播客摘自一篇来自 Anthropic 的研究论文摘要和节选，题为“大型语言模型中涌现的内省意识”。作者 Jack Lindsey 研究了大型语言模型（LLMs）是否能够对其内部状态进行内省，因为仅凭对话很难区分真正的内省与凭空捏造。研究人员通过概念注入（将已知概念的激活表示注入模型的激活层）来操纵模型的内部状态，然后观察这些操作如何影响模型的自我报告。结果表明，当前的 LLMs 确实拥有一定程度的功能性内省意识，能够在特定情况下识别被注入的概念、区分“思想”与文本输入，并利用对先前意图的记忆来判断其输出是否为自身所意图。然而，这种能力被发现是高度不可靠且依赖于具体情境的，尽管功能最强大的模型（Claude Opus 4 和 4.1）表现出最强的内省能力。总而言之，该研究为 LLMs 的内省能力提供了直接的证据，并探讨了相关机制、局限性以及对人工智能可靠性和可解释性的潜在影响。

2个月前

30分钟

Farcaster：协议悖论与资产驱动的未来

本期播客对 Farcaster 这一去中心化社交协议进行了详尽的分析，探讨了其技术架构、战略转型和用户增长面临的挑战。Farcaster 采用一种混合架构，将用户身份锚定在以太坊 L2 (Optimism) 上，而将高频社交数据存储在高性能的链下 P2P 网络 Snapchain 中。文档核心指出 Farcaster 正在经历一次战略转向，从最初的“去中心化社交”理想转变为由其杀手级功能 Frames (迷你应用) 和社区代币驱动的 “资产驱动”模式。尽管该协议得到了顶级风投的巨额融资且拥有先进的底层技术，但文档通过对比公开指标和 Power Badge (真实用户) 数量，揭示了其存在显著的“协议悖论”：即高性能的基础设施却被极低的真实用户留存率所困扰。

2个月前

32分钟

Farcaster 与 AI 代理：自主经济与去中心化社交

本期播客主要概述了去中心化社交协议 Farcaster 与自主 AI 代理（AI Agents）技术融合的趋势，并将其核心论点定位为 Farcaster是一个专为“机器公民”和人类共同设计的、具有原生经济活性的社会协议。报告首先剖析了 Farcaster “充分去中心化”的架构，强调其链上身份（FID）和开放数据层（Hubs）为 AI 代理提供了 Web2 平台无法比拟的抗审查和可扩展基础设施。随后，文章定义了自主 AI 代理如何从“工具”演变为拥有自己钱包的“经济行动者”，并详细阐述了 Mini Apps（Frames v2）作为人机协作界面以及 x402 支付协议作为机器对机器交易经济“毛细血管”的关键技术作用。最后，报告探讨了这种融合在信息策展、社区管理和原生经济活动中的应用实例，同时也提出了 AI 垃圾信息泛滥、安全风险（如提示注入）以及问责制等关键治理挑战，认为 Farcaster 的链上身份系统将成为未来 AI 代理声誉和治理的基础。

2个月前

42分钟

React 渐进式图像加载：架构与优化策略

该指南全面概述了 React 应用中渐进式图像加载的架构和实现策略，将其细分为三个核心技术：延迟加载（控制何时加载）、低质量图像占位符 (LQIP)（控制加载期间显示什么）和渐进式渲染（控制如何编码图像文件）。文章首先分析了将这三种技术结合使用的必要性，以防止累计布局偏移 (CLS)并优化 LCP 等核心 Web 指标。随后，它详细比较了主流框架 Next.js 的 next/image（按需优化）和 Gatsby 的 gatsby-plugin-image（构建时优化）的实现细节和战略权衡。最后，指南提供了在纯 React 环境中手动实现加载逻辑的方法，包括使用浏览器原生延迟加载、Intersection Observer API，以及推荐使用 react-lazy-load-image-component 库来实现高质量的“模糊上升”占位符效果。

2个月前

42分钟

一起来学 Pavel Durov 的《自由哲学与极简自律》

本期播客是莱克斯·弗里德曼（Lex Fridman）对帕维尔·杜罗夫（Pavel Durov）进行的长篇播客访谈的文字记录摘录，杜罗夫是社交媒体平台VK和加密消息应用Telegram的创始人。对话围绕杜罗夫的个人哲学展开，他强调了自由、自律的重要性，以及对恐惧和贪婪的克服。杜罗夫讨论了他对酒精、毒品和过度使用数字设备的禁欲主义生活方式，并阐述了Telegram的运营原则，特别是其对用户隐私和抵制政府压力的承诺。访谈还涵盖了杜罗夫在法国被捕的经历、他对欧洲社会对企业家精神的态度的看法，以及他对教育、竞争、比特币和TON区块链的见解。

2个月前

26分钟

一起来学 Dan Koe 的《如果你害怕虚度二十岁，请看这个》

本期播客摘录自 YouTube 频道“Dan Koe”的一个视频，旨在向二十多岁的观众提供关于如何避免浪费时间的建议，但其理念也适用于其他年龄段的人。作者使用了一次在加油站看到的经历作为引子，强调了避免“默认路径”的重要性，这种路径通常导向平庸和无意义的生活。为了提供一个全面的视角，作者还分享了由人工智能根据苏格拉底、克里希那穆提和尼古拉·特斯拉的哲学思想所整理出来的建议，并融合了他自己对于在现代社会中取得成功的具体见解。作者提供了实用建议，包括将理想生活方式放在首位、开始创业，以及掌握如写作、系统思维和利用“杠杆”效应等关键技能，这些都是在当今世界中取得指数级增长和自主权的基础。

2个月前

24分钟

SmolLM 训练手册：打造世界级大型语言模型的秘诀

本期播客摘自一份名为《SmolLM 训练手册》的文档，该文档提供了关于如何训练世界级大型语言模型的深入技术指南。它详细介绍了 SmolLM3（一个拥有 30 亿参数的多语言推理模型）的训练过程，涵盖了从架构选择、系统消融实验到数据混合和超参数调整等各个方面。该手册还讨论了在训练过程中遇到的基础设施挑战（如吞吐量下降和内存问题）、并行策略，以及如何通过后训练技术（如 SFT、DPO 和 RLVR）来完善模型能力。最终，文本强调了系统化实验和强大的基础设施对于成功进行大规模 LLM 训练的至关重要性。

2个月前

25分钟