05. 北大王立威：理论视角看大模型，为什么AI既聪明又愚蠢 - 智者访谈

我们惊叹于当前 AI 的成果，但若深究其过程则往往感到失落。在生成式 AI 盛行的当下，这种矛盾心理尤为突出。大语言模型（LLM）的通用能力是一个意外的收获，为了改进机器翻译序列处理而提出的 Transformer，性能是如此强大，已经成为语音、文本、图像领域事实上的基础架构，并且展现出一统模态的巨大潜力。从 GPT-3 到 GPT-3.5（即 ChatGPT），模型能力似乎有了质的飞跃，但二者在训练方式上并没有本质区别，这是否意味着更多的数据、更大的模型是通往智能的正确路径，更好地「预测下一个词」最终能让我们创造出会思考的机器？今天，大模型已经开始走向产品阶段，人工智能正渗透到千行百业，我们在享受智能化所带来的便利的同时，也面临一系列现实问题。现有的理论还难以解释深度学习的许多重要问题，导致实践无法系统且高效的进行。大模型的出现，给机器学习理论提出了全新的课题。在技术创新飞速发展、知识创造相对滞后的当下，理论研究该如何应对挑战、抓住机遇？本期机器之心《智者访谈》邀请到北京大学智能学院教授王立威，从机器学习理论视角看大模型的能力边界，探讨理论对 AI 未来发展的影响。王立威教授指出，很多人都将今天的人工智能与工业革命相类比，但我们是否想过，蒸汽机虽是传世的发明，却鲜有与其设计相关的理论流传下来。如果仅仅只停留在解释具体现象的层面，如今的机器学习理论研究是否也会面临同样的命运？当 AI 技术实践不断突破而理论认知未能同步提升时，技术创新的风险也将被放大，甚至阻碍其真正价值的实现。王立威教授鼓励青年学者挑战现有框架，探索未知领域，大模型不是人工智能的全部，机器学习也不止一条路径，只有看得更深、更加本质，才能发现足以传世的「AI 领域的能量守恒定律」，进而指导未来的研究和实践。他说，探索需要勇气，承担一定风险，很多事情都无法预测，但这也正是探索的乐趣。注：本期节目录制于2024年，如对话中提及年份相关时间点，默认「今年」为「2024年」。【时间线】01:05  为什么如今的 AI 既聪明又愚蠢06:25  用 ML 解决数学和科...