S1E07 | 大模型在万卡时代的扩展挑战:从云到端的训练与推理系统优化

S1E07 | 大模型在万卡时代的扩展挑战:从云到端的训练与推理系统优化

Published on Oct 7
1小时19分钟
出埃及记Exodus
0:00
0:00
<p>【关于本期】</p><p>近期,Meta 发布的 Movie Gen 文生视频生成模型,依托近万块 Nvidia H100 显卡的强大算力在云端完成训练,打造了AI生成的沉浸式场景体验。而苹果则采取了另一种路径,在利用云服务运行Apple Intelligence系统的同时,也隐私化地利用端侧 Apple 芯片驱动的设备学习用户专属的人工智能模型。这种云端与设备端的技术选择差异,凸显了当前大模型训练和部署方式的多样性——究竟是依赖云端的超大算力,还是通过设备端的优化与隐私保护来实现高效推理?</p><p>事实上,这背后反映的是科研圈和工业界广泛关注的模型训练与推理效率的优化问题。在大模型规模迅速扩张的时代,系统的效率与稳定性优化不仅是一个巨大的财务考量(例如,Anthropic 目前将近一半的营收用于购买 AWS 计算服务),更直接影响模型迭代的速度和周期。在本期播客中,我们很开心邀请到了 UC Berkeley 的李卓翰博士和 Meta FAIR 的赵嘉玮博士,共同探讨 LLM 训练与服务中的核心算法、优化策略、以及实际应用中的云计算与端计算之争,并深入分析这些选择如何影响部署成本与未来发展趋势。</p><p>【嘉宾介绍】</p><p>李卓翰:UC Berkeley PhD,导师Ion Stoica。他的研究方向是机器学习系统。他的工作包括Alpa,AlpaServe,Vicuna,以及 vLLM(PagedAttention)。他是开源项目vLLM(https://github.com/vllm-project/vllm)的创始人以及维护者之一。vLLM是目前最流行的开源大语言模型推理及部署引擎,并且在工业界被广泛部署。</p><p>赵嘉玮 (X: @jiawzhao):Meta FAIR 高级研究科学家。他的研究方向主要聚焦于与硬件效率结合的模型优化训练方法,通过理解神经网络的训练原理和硬件上限制的相互关系,来设计更高效的训练范式。他近期的研究重点是内存高效的大模型预训练和微调方法,包括提出GaLore, InRank等一系列新型训练算法。其中GaLore已经融入主流深度学习平台例如PyTorch和HuggingFace中,并且项目拥有超过10万次的下载量。博士毕业于加州理工学院。</p><p>【降落伞】</p><p>02:55 嘉宾介绍</p><p><...