EP09 当Transformer遇见ATCG：AI正在重塑基因工程未来 - LifeCode.AI

<p>从早期的DNA Bert到不久前发布的革命性的模型EVO 2，基因组预测技术在DNA语言模型的加持下不断飞速发展。本期主持人lotus作为嘉宾，与北京大学基因组学方向的博士研究生小蛇一起分享在一线工作中对DNA语言模型的理解。</p><p>与传统大语言模型不同，DNA语言模型面临着处理人类基因组长达32亿碱基对这一超长序列的巨大挑战。斯坦福大学和Arc Institute团队的最新研究成果EVO 2模型通过创新的Hyena架构，将上下文窗口扩展到百万级别，将处理小型细菌基因组变为可能。这种架构在序列长度增加时计算效率显著提升，为未来处理更复杂的真核生物基因组铺平了道路。</p><p>而伴随着CRISPR-Cas等基因编辑技术的发展应用，DNA语言模型可能会变得更加精确和高效，也许不远的将来我们就可以像使用Midjourney一样，通过简单的提示词来设计基因序列。虽然目前还面临着许多挑战，AI驱动的DNA语言模型会不断改变生物技术领域的格局，同时随着在基因治疗领域的深入应用，个性化医疗、新型疫苗研发等人类医疗健康领域也将发生革命性的改变。</p><p>【嘉宾介绍】</p><p>小蛇，北京大学二年级的博士研究生，研究方向是基因组学，目前参与跟基因组相关的大语言模型的工作。</p><p>【主要话题】</p><h3>02:52 DNA语言模型的简单介绍</h3><h3>04:04 DNA语言模型是否会取代蛋白质结构预测模型的作用及其局限性</h3><h3>08:09 Evo 2 的进展与突破以及一个关于资方的小八卦</h3><h3>11:04 Evo 2 与Evo 1对比，hyena架构设计与计算优化</h3><p>14:36 pre-training究竟是否可以提升DNA语言模型的表现？</p><p>16:40 Is DNA all you need？</p><p>18:26 DNA语言模型的理想功能及其在基因调控网络等领域的潜在突破点</p><p>20:01 DNA语言模型的难点：仅有的4个token和超长上下文的挑战</p><p>21:03 Evo模型在突变预测、基因重要性分析等任务上的表现及其实际意义。</p><p>26:14 CRISPR相关系统的工作原理及其在基因编辑和药物开发中的应用，以及通过大语言模型设计single guide RNA以改进基因编辑疗...