Pixtral 12B: 兼顾文本和多模态任务的多模态模型 - 智涌多模

介绍了 Pixtral 12B，一个由 Mistral AI 开发的 120 亿参数多模态语言模型。Pixtral 12B 能够理解自然图像和文本，并在多项多模态基准测试中取得领先成绩，超越了许多更大的模型。重要特点：<ul> <li>强大的多模态推理能力： Pixtral 12B 在多模态任务上表现出色，优于同等规模的开源模型，甚至超越了 Llama-3.2 90B 等更大的模型。</li> <li>卓越的文本理解能力： 与许多专注于多模态能力而牺牲文本性能的开源模型不同，Pixtral 12B 在文本任务上也表现出色，使其成为文本和视觉任务的理想替代方案。</li> <li>新颖的视觉编码器： Pixtral 12B 采用从头开始训练的全新视觉编码器 Pixtral-ViT，能够以自然分辨率和纵横比处理图像，为用户在处理图像时提供了更大的灵活性。</li> <li>长上下文窗口： Pixtral 12B 拥有 128K token 的长上下文窗口，可以处理任意数量的图像。</li> <li>开源和标准化评估： Pixtral 12B 在 Apache 2.0 许可下发布，并贡献了一个开源基准测试 MM-MT-Bench，用于评估实际场景中的视觉语言模型，并提供了详细的分析和代码，以实现多模态 LLM 的标准化评估协议。</li></ul>关键创新：<ul> <li>Pixtral-ViT 视觉编码器：使用 ROPE-2D 实现，支持可变图像大小和纵横比。</li> <li>使用序列打包和块对角注意力掩码，提高效率。</li> <li>在需要细粒度推理的任务（如图表和文档理解）中表现出色。</li> <li>MM-MT-Bench 基准测试：评估多模态模型在实际应用场景中的多轮指令遵循能力。</li> <li>与 LMSys 视觉排行榜的 ELO 评分高度相关。</li> <li>"E...