[DeepSeek]Janus: 解耦视觉编码以实现统一的多模态模型 - 智涌多模

本文介绍了 Janus，一个统一的多模态理解和生成模型，其核心在于解耦视觉编码，以分别满足理解和生成任务的不同需求。重要观点和事实：<ul> <li>**多模态模型的趋势：**近年来，多模态大模型在理解和生成领域都取得了显著进展。研究人员致力于构建更强大、更通用的多模态模型，将理解和生成任务结合起来。</li> <li>现有统一模型的局限性： 传统的统一模型通常使用单一的视觉编码器来处理理解和生成任务，但这会导致两种任务之间产生冲突和权衡，尤其是在多模态理解方面表现不佳。</li> <li>**Janus 的解决方案：**Janus 提出了解耦视觉编码的方案，为理解和生成任务分别引入两个独立的视觉编码路径，并通过相同的 Transformer 架构进行统一处理。</li></ul>Janus 的优势：<ol> <li>缓解冲突： 解耦视觉编码缓解了理解和生成任务对视觉编码器粒度需求不同的冲突，消除了在选择视觉编码器时需要在两种任务之间进行权衡的问题。</li> <li>灵活性和可扩展性： 解耦后，理解和生成任务都可以独立采用各自领域最先进的编码技术。此外，Janus 未来还可以容纳其他类型的输入，例如点云、脑电信号或音频数据。</li></ol>Janus 的架构：<ul> <li>独立的编码方法： 针对纯文本理解、多模态理解和视觉生成任务，Janus 分别采用独立的编码方法将原始输入转换为特征，然后由一个统一的自回归 Transformer 进行处理。</li> <li>统一的 Transformer 架构： 所有特征序列被连接起来形成一个多模态特征序列，随后被输入到 LLM 中进行处理。LLM 的内置预测头用于纯文本理解和多模态理解任务中的文本预测，而随机初始化的预测头用于视觉生成任务中的图像预测。</li></ul>训练过程：Janus ...