[Baichuan]BAICHUAN-OMNI多模态模型技术报告

[Baichuan]BAICHUAN-OMNI多模态模型技术报告

Published on Oct 16
13分钟
智涌多模
0:00
0:00
<h2>介绍了百川智能开发的首个开源 7B 多模态大语言模型 (MLLM) Baichuan-Omni。该模型能够同时处理和分析图像、视频、音频和文本等多种模态信息,提供先进的多模态交互体验,并在多个基准测试中表现出强大的性能。</h2><p><strong>核心思想:</strong></p><ol> <li><strong>构建全面的多模态训练数据:</strong> Baichuan-Omni 的训练数据涵盖了图像、视频、音频和文本等多种模态,并融合了开源、合成和内部标注的数据集。</li></ol><ul> <li><strong>图像数据:</strong> 包括图像描述、交错图文、OCR 数据和图表数据等,来源包括 PIN-14M、MINT-1T、LAION-5B、OBELIC 等开源数据集,以及 Cauldron、Monkey、ArxivQA、TGDoc、MM-Self-Instruct、MMTab 等用于第二、三阶段训练的数据集。</li> <li><strong>视频数据:</strong> 来源包括 LLaVA-NExT 中的 NExTVideo、ActivityNet-QA、ShareGPT4Video 和 WebVid 等开源数据集,以及使用 GPT-4o 为 YouTube 视频生成的描述。</li> <li><strong>音频数据:</strong> 包括不同录音环境、语言、口音和说话者的音频数据,并使用内部 ASR 系统和开源模型生成多版本文本,通过模型集成策略进行文本过滤和纠错。</li> <li><strong>文本数据:</strong> 来自网页、书籍、学术论文、代码等多个领域,经过筛选以提高多样性和质量。</li> <li><strong>跨模态交互数据:</strong> 包括图文音和视频音文数据集,例如将文本数据分割为 1:3 比例,将初始四分之一文本转换为音频描述,并通过任务提示引导模型预测剩余四分之三文本描述。</li></ul><ol> <li><strong>多模态对齐预训练:</strong> 该阶段的目标是在不同模态之间进行对齐。</li></ol><ul> <li><strong>图像-语言分支:</strong> 使用大量图文对训练视觉-语言模型,并利用其视觉能力进一步训练视频投影器。</...