
0:000:00
<h2>本文介绍了<strong>Molmo</strong>,这是一系列最先进的<strong>开放式</strong>视觉语言模型(VLM)。Molmo的独特之处在于其完全开放的权重和数据,不依赖于任何专有VLM生成的合成数据,从而为构建高性能VLM奠定了基础。</h2><h3>主要发现</h3><ul> <li>Molmo家族中最有效的模型<strong>MolmoE-1B</strong>,基于<strong>OLMoE-1B-7B</strong>混合专家语言模型,在学术基准测试和用户偏好方面几乎与<strong>GPT-4V</strong>的性能相匹配。</li> <li>基于<strong>OLMo-7B-1024</strong>和<strong>Qwen2 7B</strong>的<strong>Molmo-7B-O</strong>和<strong>Molmo-7B-D</strong>模型,在学术基准测试和用户偏好方面均优于<strong>GPT-4V</strong>,并接近<strong>GPT-4o</strong>的性能。</li> <li>性能最佳的<strong>Molmo-72B</strong>模型,基于<strong>Qwen2 72B</strong>,在学术基准测试中取得了最高分,并在用户偏好排名中位列第二,仅次于<strong>GPT-4o</strong>。</li> <li>最佳模型的性能优于许多最先进的专有系统,包括<strong>Gemini 1.5 Pro</strong>、<strong>Flash</strong>和<strong>Claude 3.5 Sonnet</strong>。</li></ul><h3>重要性</h3><p>Molmo的开放性对科学探索具有重要意义,因为它允许研究人员深入了解如何从头开始构建高性能VLM,而无需依赖专有模型或数据。</p><h3>PixMo-Cap数据收集</h3><p>“我们的关键创新是一个简单但有效的数据收集策略,它避免了这些问题:我们要求注释者在60到90秒内用语音描述图像,而不是要求他们写描述。我们提示注释者详细描述他们看到的一切,包括空间定位和关系的描述。根据经验,我们发现通过这种模态切换‘技巧’,注释者可以在更短的时间内提供更详细的描述,并且对...