推理加速：RASD 和 REFRAG 深度解析 - Daily LLM Papers

REFRAG (REpresentation For RAG) 和 RASD (Retrieval-Augmented Speculative Decoding) 都是旨在提高大型语言模型 (LLM) 推理效率的方法，但它们关注的方面和实现机制有所不同：<ol> <li>核心目标和解决的问题：REFRAG：主要目标是解决RAG应用中长上下文输入带来的显著系统延迟和对键值 (KV) 缓存的大量内存需求，从而提高吞吐量并解决知识丰富与系统效率之间的基本权衡问题。它特别关注首个token生成时间 (TTFT) 的优化。REFRAG提出，RAG上下文通常信息稀疏，且检索到的段落之间的交叉注意力模式呈块对角线状，因此大部分计算是不必要的。 RASD：旨在通过引入检索方法来增强基于模型的推测解码 (speculative decoding)，从而加速LLM的推理过程。推测解码通过生成草稿token供目标模型验证，显著提高了LLM推理的计算并行性。RASD的核心在于解决传统草稿模型在域外场景中效率低下以及草稿阶段耗时导致验证步长上限低的问题。 </li> <li>实现机制： REFRAG：通过压缩 (Compress)、感知 (Sense) 和扩展 (Expand) 上下文表示来优化效率。压缩：不直接使用检索到的段落中的所有token作为输入，而是利用预先计算的、压缩的块嵌入 (compressed chunk embeddings) 作为近似表示，并直接将这些嵌入馈送给解码器。这缩短了解码器输入长度，重用了检索过程中的计算，并将注意力计算复杂度从与token数量的平方关系降低到与块数量的平方关系。 感知/选择性压缩：通过一个<stron...