
0:000:00
<p><strong>Qwen3</strong>,<strong>Qwen</strong>模型家族的最新版本,该系列大型语言模型旨在提升性能、效率和多语言能力。<strong>Qwen3</strong>系列包含参数规模从0.6到2350亿的<strong>密集型</strong>和<strong>MoE(混合专家)架构模型</strong>。<strong>Qwen3</strong>的关键创新在于将<strong>思考模式</strong>(用于复杂、多步骤推理)和<strong>非思考模式</strong>(用于快速、上下文驱动的响应)整合到一个统一框架中,并引入了<strong>思考预算机制</strong>,允许用户在推理过程中自适应分配计算资源。通过利用旗舰模型的知识,<strong>Qwen3</strong>显著降低了构建小型模型所需的计算资源,同时确保了其极具竞争力的性能。实证评估表明,<strong>Qwen3</strong>在各种基准测试中均达到了最先进的水平,并将其多语言支持从29种扩展到119种语言和方言。</p><p><a href="https://arxiv.org/pdf/2505.09388">2505.09388</a></p>