[Apple]MM1.5：多模态大语言模型微调的方法、分析与见解 - 智涌多模

<h2>一、 MM1.5 简介</h2>MM1.5 是一系列多模态大型语言模型 (MLLM)，包括密集模型（参数规模从1B到30B）和专家混合 (MoE) 模型。该模型在 MM1 [118] 的基础上进行了显著升级，能够出色地处理各种多模态任务，包括：<ul> <li>通用领域和富文本图像理解：从理解简单图像到复杂的富文本图像。</li> <li>粗粒度到细粒度理解: 从理解图像整体到具体细节。</li> <li>单图像到多图像推理: 从单张图像理解到多张图像之间的推理。</li></ul>二、 MM1.5 的主要能力<ul> <li>视觉指代和定位: MM1.5 具备强大的细粒度图像理解能力，能够解释文本提示以及点和边界框等视觉提示。</li> <li>"MM1.5 offers robust, fine-grained image understanding, extending beyond text prompts to interpret visual prompts such as points and bounding boxes."</li> <li>多图像推理和上下文学习: MM1.5 得益于大规模交错预训练，具备强大的上下文学习和多图像推理能力。</li> <li>"MM1.5 benefits from large-scale interleaved pre-training, resulting in strong in-context learning and multi-image reasoning capabilities right out of the box."</li> <li>扩展性: MM1.5 架构具有强大的扩展性，参数规模可达 30B，并在各种基准测试中取得了竞争力的性能。</li></ul>三、 MM1.5 的变体<ul> <li>MM1.5...