Vol.11. 【漫谈AGI】DeepSeek炸场硅谷：属于中国大模型的GPT时刻是如何炼成的？ - 半球观察

【漫谈AGI】系列重磅回归！这次让我们来聊聊让整个硅谷和美国股市都陷入恐慌震荡的，属于中国大模型的GPT时刻：Deepseek。1957年10月4日，苏联抢先美国成功发射Sputnik1号人造卫星，令西方世界陷入一段恐惧和焦虑的时期，史称Sputnik时刻。而这次DeepSeek V3和R1两个模型在美国的爆火，被西方媒体宣称是AI领域的Sputnik时刻。本期【漫谈AGI】为我们聚焦Deepseek的第一期，我们来聊聊DeepSeek的技术总览与发家史，以及为什么我们认为这将深刻改变接下来的AI赛道、中美竞争、和我们每个人的生活。在随后将会更新的第二期中，我们还将与大家深入聊聊Deepseek的技术细节和其对未来生成式AI发展的方向影响。Deepseek为何让硅谷和华尔街如此恐惧？生成式AI浪潮的泡沫被戳破了吗？Deepseek究竟做了哪些创新性的技术，深刻地影响和改变了此次大模型的竞争市场格局？Deepseek的本次破圈意味着什么，会对未来生成式AI的发展造成怎样的影响？本期《半球观察》，与您相约～-------------------------------------<h2>【勘误】</h2>我们因为录制匆忙，在节目中有若干事实存在错误。我们在此表示诚挚的歉意，并感谢听友们的指正，以下为我们的勘误。<ul> <li>00:04:10 此处易造成误解。Llama3为密集模型（Dense Model），并非混合专家（MoE）架构模型。MoE架构在2024年才逐渐成为行业共识。</li> <li>00:33:49 此处数据在近日媒体的查证更新中证实为不实。DeepSeek V3的Technical Report中所说的500万美金训练成本，仅为GPU运行时消耗的资源成本，R1的成本目前并未有确切数据公布，200万美金并非官方数据。外界估计，DeepSeek的总训练成本大概在10亿～16亿美金量级。</li> <li>00:40:00 此处数据有误。英伟达的股价在单个交易日内跌了18%，并非30%。但其市值蒸发数额确...