
0:000:00
<p><strong>主题:</strong> 介绍 ARIA,第一个开源的多模态原生混合专家模型 (MoE),其在各种多模态、语言和编码任务中表现出最佳性能。</p><p><strong>主要观点和事实:</strong></p><ul> <li><strong>多模态原生:</strong> ARIA 是一个单一模型,能够理解多种输入模态(如文本、代码、图像、视频),其性能可与类似规模的模态特定模型相媲美或超越。它为用户提供无缝的多模态体验,无需区分不同模态的输入。</li></ul><p>“多模态原生模型指的是一个单一模型,它能够跨多种输入模态(例如文本、代码、图像、视频)具备强大的理解能力,并且其性能与类似规模的模态特定模型相媲美或超越。”</p><ul> <li><strong>混合专家架构:</strong> ARIA 的核心是一个细粒度的 MoE 解码器,它通过专家专业化实现更有效的参数利用,从而实现比密集解码器更快的训练和推理速度。每个文本/视觉 token 激活的参数分别为 3.5B/3.9B。</li></ul><p>“MoE 的核心思想是用一组专家替换 Transformer 中的每个前馈层(FFN),其中每个专家在结构上与 FFN 相同。”</p><ul> <li><strong>轻量级视觉编码器:</strong> ARIA 使用一个 438M 参数的轻量级视觉编码器将视觉输入(图像或视频帧)转换为连续的视觉标记,与词嵌入具有相同的特征维度,从而使 MoE 能够无缝集成视觉和语言输入。</li></ul><p>“我们设计了一个轻量级的视觉编码器,将视觉输入(即图像或视频帧)转换为与词嵌入具有相同特征维度的连续视觉标记,这使得 MoE 能够无缝地集成视觉和语言输入。”</p><ul> <li><strong>大规模预训练:</strong> ARIA 在 6.4T 语言标记和 400B 多模态标记上进行预训练。预训练数据经过精心策划,来自各种来源,包括交错的图文网页数据、合成图像描述、文档转录和问答对、合成视频描述和问答对。</li></ul><p>“ARIA 在 6.4T 语言标记和 400B 多模态标记上进行预训练。我们开发了一个严格的程序,从各种来源中筛选高质量的数据。”</p><ul> <li><strong>四阶段训练流程...