
0:000:00
<p><a href="https://arxiv.org/pdf/2508.15763">本期论文:INTERN-S1: A SCIENTIFIC MULTIMODAL FOUNDATION MODEL</a></p><p>Intern-S1 在多个方面展现了显著的创新,这些创新主要体现在其模型架构、数据策略以及训练系统和算法优化上,旨在弥合开放源代码与闭源模型在科学理解和推理能力上的差距,并向通用人工智能(AGI)迈进。</p><p>以下是 Intern-S1 的主要创新点:</p><ul> <li><strong>专业通用型多模态基础模型定位</strong>:Intern-S1 被设计为一个能够分析多种科学模态数据(如分子结构、时间序列信号等)的<strong>专业通用型模型</strong>。它旨在成为加速科学发现的多模态大型推理模型。<br></li> <li><strong>创新的模型架构设计</strong>:<strong>多专家混合(Mixture-of-Experts, MoE)架构</strong>:Intern-S1 采用 Qwen3-235B MoE 模型作为基础 LLM,总参数达 2410 亿,激活参数 280 亿,提升了处理复杂任务的能力。<br><br><strong>多模态编码器</strong>:根据科学模态的不同表示形式,Intern-S1 采用不同的策略将其投射到 LLM 的表示空间。<strong>InternViT 视觉编码器</strong>:使用 InternViT 系列(Intern-S1 采用 InternViT-6B,Intern-S1-mini 采用 InternViT-300M),提供强大的高分辨率、细粒度视觉表示,并支持动态分辨率,通过 MLP 投影仪与语言模型对齐。<br><strong>动态分词器(Dynamic Tokenizer)</strong>:这是针对分子结构(如 SMILES 格式)、蛋白质序列等<strong>可线性化的离散科学表示</strong>设计的。它解决了传统静态分词器在科学领域压缩率低和不同模态相同 token 嵌入偏差的问题。该分词器通过规则或特殊标签检测模态,对不同部分应用不同分词策略,并使它们的嵌入空间<strong>相互正交</strong>。实验证明,其在科学数...