
0:000:00
<p>聊聊DeepSeek昨晚刚刚发布的最新模型DeepSeek-V3.2-Exp的公开论文。</p><figure><img src="https://image.xyzcdn.net/FhwFuW9fMjzWm7v8G_7ZIjmhV_0Z.png"/></figure><p><strong>DeepSeek Sparse Attention(DSA</strong>)首次实现了细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅提升。</p><p>来源:https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf</p>