Pixtral 12B: 兼顾文本和多模态任务的多模态模型

Pixtral 12B: 兼顾文本和多模态任务的多模态模型

Published on Oct 13
10分钟
智涌多模
0:00
0:00
<p>介绍了 Pixtral 12B,一个由 Mistral AI 开发的 120 亿参数多模态语言模型。Pixtral 12B 能够理解自然图像和文本,并在多项多模态基准测试中取得领先成绩,超越了许多更大的模型。</p><p><strong>重要特点:</strong></p><ul> <li><strong>强大的多模态推理能力:</strong> Pixtral 12B 在多模态任务上表现出色,优于同等规模的开源模型,甚至超越了 Llama-3.2 90B 等更大的模型。</li> <li><strong>卓越的文本理解能力:</strong> 与许多专注于多模态能力而牺牲文本性能的开源模型不同,Pixtral 12B 在文本任务上也表现出色,使其成为文本和视觉任务的理想替代方案。</li> <li><strong>新颖的视觉编码器:</strong> Pixtral 12B 采用从头开始训练的全新视觉编码器 Pixtral-ViT,能够以自然分辨率和纵横比处理图像,为用户在处理图像时提供了更大的灵活性。</li> <li><strong>长上下文窗口:</strong> Pixtral 12B 拥有 128K token 的长上下文窗口,可以处理任意数量的图像。</li> <li><strong>开源和标准化评估:</strong> Pixtral 12B 在 Apache 2.0 许可下发布,并贡献了一个开源基准测试 MM-MT-Bench,用于评估实际场景中的视觉语言模型,并提供了详细的分析和代码,以实现多模态 LLM 的标准化评估协议。</li></ul><p><strong>关键创新:</strong></p><ul> <li><strong>Pixtral-ViT 视觉编码器:</strong>使用 ROPE-2D 实现,支持可变图像大小和纵横比。</li> <li>使用序列打包和块对角注意力掩码,提高效率。</li> <li>在需要细粒度推理的任务(如图表和文档理解)中表现出色。</li> <li><strong>MM-MT-Bench 基准测试:</strong>评估多模态模型在实际应用场景中的多轮指令遵循能力。</li> <li>与 LMSys 视觉排行榜的 ELO 评分高度相关。</li> <li><strong>"E...