推理加速:RASD 和 REFRAG 深度解析

推理加速:RASD 和 REFRAG 深度解析

Published on Sep 10
39分钟
Daily LLM Papers
0:00
0:00
<p>REFRAG (REpresentation For RAG) 和 RASD (Retrieval-Augmented Speculative Decoding) 都是旨在提高大型语言模型 (LLM) 推理效率的方法,但它们关注的方面和实现机制有所不同:</p><ol> <li><strong>核心目标和解决的问题</strong>:<strong>REFRAG</strong>:主要目标是解决<strong>RAG应用中长上下文输入带来的显著系统延迟和对键值 (KV) 缓存的大量内存需求</strong>,从而提高吞吐量并解决知识丰富与系统效率之间的基本权衡问题。它特别关注<strong>首个token生成时间 (TTFT)</strong> 的优化。REFRAG提出,RAG上下文通常信息稀疏,且检索到的段落之间的交叉注意力模式呈块对角线状,因此大部分计算是不必要的。<br><strong>RASD</strong>:旨在<strong>通过引入检索方法来增强基于模型的推测解码 (speculative decoding)</strong>,从而加速LLM的推理过程。推测解码通过生成草稿token供目标模型验证,显著提高了LLM推理的计算并行性。RASD的核心在于解决传统草稿模型在<strong>域外场景中效率低下</strong>以及草稿阶段耗时导致验证步长上限低的问题。<br></li> <li><strong>实现机制</strong>:<br><strong>REFRAG</strong>:通过<strong>压缩 (Compress)</strong>、<strong>感知 (Sense)</strong> 和<strong>扩展 (Expand)</strong> 上下文表示来优化效率。<strong>压缩</strong>:不直接使用检索到的段落中的所有token作为输入,而是利用<strong>预先计算的、压缩的块嵌入 (compressed chunk embeddings)</strong> 作为近似表示,并直接将这些嵌入馈送给解码器。这缩短了解码器输入长度,重用了检索过程中的计算,并将注意力计算复杂度从与token数量的平方关系降低到与块数量的平方关系。<br><strong>感知/选择性压缩</strong>:通过一个<stron...