对话朱俊帆 | 硅谷跑会实录:听到了哪些 Paper 没写的“内部噪音”?

对话朱俊帆 | 硅谷跑会实录:听到了哪些 Paper 没写的“内部噪音”?

Published on Dec 3
43分钟
AI Odyssey
0:00
0:00
<h2>主播的话</h2><p>你的 Transformer 模型,是不是有一半的计算量都在“摸鱼”?</p><p>当所有人都在卷 SFT的时候,为什么硅谷的前沿研究者们却开始担心“模式坍缩”,转而把目光投向了 RLVR?</p><p>这期节目,我们没请 CEO,也没请投资人,而是拉来了一位最近在硅谷“跑会”跑到腿软的硬核朋友——<strong>俊帆</strong>。作为自动驾驶领域的 AI Engineer,他在短短两个月里,密集扫荡了 Pytorch Conference、Ray Summit、AMD Dev Day 甚至各类 Hackathon(还抽中了一块显卡!)。</p><p>我们把他在这些活动上听到的“内部噪音”和“前沿信号”做了一次深度 Dump。你会在节目里听到:</p><ul> <li>斯坦福大佬 Christopher Manning 是如何通过“残差流抹除”实验,发现 Transformer 架构其实非常浪费的;</li> <li>为什么现在大家都说“Post-training”才是决胜局,以及 Thinking Machine 实验室是如何用轻量级的 LoRA 就能跑出逼近 97% 的 RL 效果;</li> <li>还有字节、Google 在Infra层面上为了解决万卡训练和 Agent 显存焦虑做的“变态”优化。</li></ul><p>如果你是正在死磕模型效果的算法工程师,或者是对 AI 技术栈演进好奇的产品人,这期“硅谷前线观察报告”绝对能帮你省下几千美金的门票钱。</p><p>戴上耳机,我们一起去湾区现场看看。</p><h2>嘉宾:</h2><p>朱俊帆:芝加哥大学金融数学和佐治亚理工学院计算机科学毕业,曾在自动驾驶公司从事 AI Agent 和强化学习的研发工作;在芝加哥做了几年投行的量化金融模型。</p><p><a href="https://www.linkedin.com/in/junfan-zhu/">欢迎查看嘉宾的 LinkedIn 了解更多信息</a></p><h2>主播:</h2><p>Leo:硅谷大厂高级机器学习工程师,GenAI LLM发烧友</p><h2>本期重点</h2><ul> <li>00:47 嘉宾介绍</li> <li>02:01 嘉宾的“特种兵”行程单:从 PyTorch Conf 到 ...
对话朱俊帆 | 硅谷跑会实录:听到了哪些 Paper 没写的“内部噪音”? - AI Odyssey - 播刻岛