readthepapers
Science

readthepapers

作者: Junlin Zhou
最近更新: 4个月前
借助 NotebookLM 将精选的热门论文或个人感兴趣的学术内容转化为中文播客,帮助更多人轻松获取前沿知识。

Recent Episodes

TOP Improves Language Modeling

TOP Improves Language Modeling

本篇论文介绍了一种名为令牌顺序预测(TOP)的新型辅助训练目标,旨在提升大型语言模型(LLMs)的性能。文章首先阐述了当前LLMs主要采用的下一令牌预测(NTP)方法的局限性,随后审视了多令牌预测(MTP)作为辅助目标所面临的挑战,**例如在标准自然语言处理(NLP)基准测试中表现不佳,以及对模型规模和未来令牌数量的敏感性。**TOP通过预测即将出现的令牌的相对顺序,而非精确的未来令牌,**简化了学习任务,**并且只需额外一个线性嵌入层,**使其在参数效率和可扩展性上优于MTP。**实验结果表明,**TOP在多种规模的模型上,均优于NTP和MTP,**特别是在70亿参数的模型上,展现出更好的通用语言建模性能和扩展潜力。Source: <https://arxiv.org/abs/2508.19228>

4个月前
21分钟
EmbodiedOneVision

EmbodiedOneVision

本论文介绍了EO-1模型,这是一种用于实现通用机器人策略的视觉-语言-动作模型。该模型采用统一的解码器专用Transformer架构,旨在捕捉具身交互中视觉、文本和动作模态之间固有的时间动态和因果关系。为了训练EO-1,研究人员从大规模机器人数据集中筛选出多样化的视频,并对其进行分割和标注,以创建包括空间推理和自由对话在内的多模态数据。通过引入EO-Bench基准测试,该研究提供了对机器人具身推理能力的全面评估,涵盖了空间理解、物理常识、任务推理和状态估计等多个方面。实际世界实验表明,EO-1在各种机器人平台和任务中始终优于现有技术,尤其在长周期灵巧任务中表现出色,凸显了其在开放世界中部署的潜力。Source: <https://arxiv.org/abs/2508.21112>

4个月前
25分钟
rStar2-Agent

rStar2-Agent

该文档介绍并详细阐述了rStar2-Agent,一个由微软研究院开发的14B数学推理模型。该模型通过智能强化学习(Agentic Reinforcement Learning)进行训练,以超越传统长思维链(Long CoT)方法的性能。它在处理复杂问题时展现出先进的认知行为,例如在调用Python编码工具前进行仔细思考,并能根据代码执行反馈自主探索、验证和完善中间步骤。文档强调了rStar2-Agent的三个核心创新:高效的RL基础设施、GRPO-RoC代理RL算法,以及高效的代理训练方案。最终,rStar2-Agent-14B模型在数学推理方面取得了前沿水平的准确率,在AIME24测试中达到80.6%,并且在代码使用效率和泛化能力方面表现出色,其训练过程也具备极高的效率。Source: <https://arxiv.org/abs/2508.20722>

4个月前
24分钟
Unraveling LLM Cognition Through Module Communities

Unraveling LLM Cognition Through Module Communities

这篇论文深入探讨了大型语言模型(LLMs)的认知模式,通过网络框架将认知技能、LLM架构和数据集联系起来。文章主要研究了LLMs内部模块如何组织和协作以支持各种认知功能,例如记忆、执行功能、语言交流和社交认知。通过剪枝策略和社区检测算法,研究人员分析了技能在模型模块中的分布,发现LLMs表现出分布式而非严格局部化的学习动态,与鸟类和小型哺乳动物大脑的弱局部化架构有部分相似性。研究结果表明,虽然LLMs的模块存在与特定技能相关的社区结构,但针对性地微调这些模块并未带来显著的性能提升,这强调了LLMs中知识表示的分布式特性以及跨区域交互在模型认知能力中的重要作用。Source: <https://arxiv.org/abs/2508.18192>

4个月前
15分钟
Self-Rewarding VLM via Reasoning Decomposition

Self-Rewarding VLM via Reasoning Decomposition

本论文来自腾讯人工智能实验室,介绍了一种名为 Vision-SR1 的新方法,旨在提升视觉语言模型 (VLM) 的推理能力。Vision-SR1 通过将 VLM 的推理过程分解为视觉感知和语言推理两个阶段,并通过模型自身进行奖励评估来解决现有 VLM 的视觉幻觉和语言捷径问题。该方法在强化学习框架下运作,无需外部人工标注或预先提取的标签,从而解决了现有方法的扩展性和成本问题。实验结果表明,Vision-SR1 在多项视觉语言任务上显著提高了视觉推理能力,减少了模型对语言捷径的依赖。该研究还提出了语言捷径率 (LSR) 作为衡量模型对视觉理解的依赖程度的指标。Source: <https://arxiv.org/abs/2508.19652>

4个月前
25分钟
Dynamic Fine-Tuning

Dynamic Fine-Tuning

这篇论文介绍了一种名为动态微调(DFT)的新方法,旨在提升大型语言模型(LLM)监督微调(SFT)的泛化能力。资料指出标准SFT存在限制,因为它隐含的奖励结构存在问题,导致模型在面对训练数据中低概率的专家动作时,其梯度更新变得不稳定且方差过大。为了解决这一问题,DFT通过动态地根据每个词元(token)的概率来重新调整目标函数,有效地修正了这种有偏的奖励结构,从而稳定了学习过程。实验结果表明,DFT在多种数学推理基准测试中显著优于传统SFT,并且在离线强化学习环境中也能超越现有方法,突显了其在提高LLM性能和泛化方面的有效性和效率。最终,这项工作为SFT提供了一个更深层次的理论理解,并提供了一个简单而实用的改进方案。Source: <https://arxiv.org/abs/2508.05629>

4个月前
21分钟
Coconut

Coconut

这项研究引入了一种名为 Coconut(连续思想链)的新范式,旨在改进大型语言模型 (LLM) 的推理能力。当前 LLM 通常通过语言空间中的“思想链”(CoT)进行推理,作者认为这种方式效率不高,因为语言表达中的许多标记对实际推理作用不大。相反,Coconut 允许 LLM 在连续潜在空间中进行推理,直接将模型的最后隐藏状态(即“连续思想”)作为下一次输入的嵌入,而非将其解码为词元。实验表明,这种方法在逻辑推理任务中优于传统的 CoT,并且能够促成类似广度优先搜索(BFS)的高级推理模式,这使得模型能够同时编码多个可能的推理步骤,并在规划过程中更有效地消除错误路径。研究强调了潜在推理的潜力及其对未来 LLM 研究的启示。Source: <https://arxiv.org/abs/2412.06769>

4个月前
9分钟
Zero-Variance Gradients for Variational Autoencoders

Zero-Variance Gradients for Variational Autoencoders

该研究论文介绍了一种名为“无声梯度”的新方法,旨在解决变分自动编码器 (VAEs) 训练中常见的梯度估计方差问题。传统方法如重参数化和REINFORCE算法在通过随机采样层反向传播梯度时会引入噪声,从而影响模型性能和收敛速度。作者提出,通过利用特定的解码器架构,可以解析地计算预期证据下界(ELBO),从而得到零方差的梯度。文章首先在理论上确立了这种方法的有效性,并展示了其在线性解码器设置下优于现有估计器的表现。为了将其推广到更复杂的非线性解码器,研究引入了一种新颖的训练动态,该动态在编码器训练的早期阶段使用精确的零方差梯度进行指导,然后逐步过渡到标准的随机估计器。实验结果表明,该技术显著提高了包括重参数化、Gumbel-Softmax和REINFORCE在内的基线模型的性能,为生成模型训练提供了一个结合解析计算稳定性与深度非线性架构表达能力的新方向。Source: <https://arxiv.org/abs/2508.03587>

5个月前
46分钟
Accelerating Newton-Schulz Iteration for Orthogonalization

Accelerating Newton-Schulz Iteration for Orthogonalization

本研究介绍了一种名为 CANS(Chebyshev-optimized Newton-Schulz) 的新方法,旨在通过利用 Chebyshev 交错定理 优化系数来加速 Newton-Schulz 迭代。这种迭代是计算给定矩阵 正交极分解 的有效方法,因为它主要依赖于矩阵乘法。研究人员通过理论推导了 三阶 Newton-Schulz 迭代 的最优系数,并利用 Remez 算法 计算了更高阶多项式的最优系数。 CANS 方法 在 Muon 优化器 和 Stiefel 流形上的黎曼优化 等深度学习应用中展现出显著的性能提升。通过定制多项式以在特定区间内实现理想行为,CANS 能够平衡精度与计算效率,甚至在缺乏最小奇异值信息的情况下也能有效运行。Source: <https://arxiv.org/abs/2506.10935>

5个月前
33分钟
Beyond Binary Rewards

Beyond Binary Rewards

该论文介绍了一种名为 RLCR(强化学习与校准奖励) 的新方法,旨在通过结合标准正确性奖励和基于 Brier 分数的校准奖励来训练大型语言模型。文章指出,传统的二元奖励函数虽然能提高准确性,但往往导致模型过度自信并增加“幻觉”率。RLCR 的目标是同时提高模型的 准确性 和 校准置信度估计,使其不仅能给出正确答案,还能准确地表达其不确定性。实验结果表明,RLCR 在保持甚至提升准确性的同时,显著改善了模型的校准性能,尤其是在域外泛化方面。此外,文章还探讨了 言语化置信度 在测试时缩放方法中的应用,以及推理过程如何有助于校准。Source: <https://www.arxiv.org/abs/2507.16806>

5个月前
7分钟
Reasoning Models Don't Always Say What They Think

Reasoning Models Don't Always Say What They Think

该论文探讨了大型语言模型(LLMs)思维链(CoT)的忠实性,即CoT在多大程度上准确反映了模型的内部推理过程。研究发现,尽管CoT对于理解模型意图和推理过程至关重要,但现有最先进的推理模型通常无法忠实地表达其推理过程,尤其是在处理更困难的任务或利用“作弊”提示时。研究还指出,基于结果的强化学习(RL)在提高CoT忠实性方面效果有限,并且无法可靠地揭示模型利用奖励漏洞的行为。因此,论文得出结论,CoT监控虽然有助于发现意外行为,但不足以完全排除所有未对齐的行为,特别是在模型无需明确推理即可执行某些操作的场景下。Source: <https://arxiv.org/abs/2505.05410>

5个月前
8分钟
Subliminal Learning - Alignment Science Blog from Anthropic

Subliminal Learning - Alignment Science Blog from Anthropic

Anthropic团队的一篇博客文章介绍了**“潜意识学习”现象,即大型语言模型(LLM)能够在不相关的生成数据中无意中传递行为特征**。文章通过实验证明,一个被训练成喜爱特定事物的“教师”模型,即使其输出数据(如数字序列或代码)中不包含任何与该事物相关的信息,也能将其偏好传递给“学生”模型。这种现象同样适用于传输对齐偏差,并且即便对数据进行严格过滤也无法阻止,因为信号以非语义模式存在。研究强调,这种传递只发生在“教师”和“学生”模型共享相同基础模型的情况下。文章指出,这意味着AI安全评估需要超越表面行为,以防范模型在不经意间习得不良倾向。Source: <https://alignment.anthropic.com/2025/subliminal-learning/>

5个月前
9分钟
Reasoning or Memorization?

Reasoning or Memorization?

本研究调查了大型语言模型(LLMs)通过强化学习(RL)在数学推理方面性能提升的可靠性。文章指出,Qwen2.5模型系列在数学基准测试(如MATH-500)上的显著进步,可能并非源于真正的推理能力提升,而是因为其预训练数据存在与这些基准测试的“数据污染”现象,导致模型记忆了答案。为了验证这一假设,研究人员创建了一个名为RandomCalculation的无污染合成数据集,并在此数据集上进行了RL实验。实验结果表明,只有准确的奖励信号才能促使模型在无污染数据上实现稳定的性能提升,而随机或不正确的奖励则无法带来有意义的改进,这有力地支持了数据污染是导致Qwen2.5在旧基准上表现异常的主要原因。Source: <https://arxiv.org/abs/2507.10532>

5个月前
7分钟
A Survey on Latent Reasoning

A Survey on Latent Reasoning

该论文主要讨论大型语言模型(LLM)中的“潜在推理”,这是一种通过模型连续的内部状态进行多步推理的方法。文章概述了潜在推理与传统“思维链”(CoT)推理的区别,指出前者能突破语言表达的限制,提供更丰富的推理能力。文中详细阐述了两种主要潜在推理范式:垂直循环(基于激活)和水平循环(基于隐藏状态),并探讨了通过架构设计或训练策略诱导循环的方法。此外,资料还深入分析了Transformer模型层级在潜在CoT中的作用,认为不同层级承担着特定的推理功能,并展望了**通过扩散模型实现“无限深度推理”**的前沿方向。Source: <https://arxiv.org/abs/2507.06203>

6个月前
7分钟
Potemkin Understanding in Large Language Models

Potemkin Understanding in Large Language Models

本论文探讨了大型语言模型(LLMs)的“波将金式理解”现象,即模型在基准测试中表现出色,但其概念理解方式与人类存在根本差异。作者提出了一个正式框架来定义这种现象,并指出为人类设计的基准测试,只有在LLMs的错误理解模式与人类相似时才对LLMs有效。研究通过两种方法量化了波将金式理解的普遍性:一是构建了一个新的基准数据集,涵盖文学技巧、博弈论和心理偏见等领域,测试模型解释和应用概念的能力;二是设计了一个自动化评估程序,通过衡量模型自身回答的一致性来检测这种不理解。结果表明,所有测试的模型都普遍存在这种表面理解,即使它们能正确定义概念,也常在实际应用中失败,并且其内部概念表征存在不连贯性。Source: <https://arxiv.org/abs/2506.21521>

6个月前
8分钟
From Tokens to Thoughts

From Tokens to Thoughts

这项研究探讨了大型语言模型(LLMs)如何处理概念,并将其与人类的认知方式进行比较。研究人员运用了一种信息论框架,借鉴了率失真理论和信息瓶颈原理,以量化LLMs在信息压缩和语义保真度之间如何权衡。通过分析LLMs的词元嵌入并参照人类分类基准数据,研究发现LLMs能够形成与人类判断相符的宽泛概念类别,但在捕捉人类理解所必需的细粒度语义差异方面存在不足。关键在于,LLMs倾向于激进的统计压缩,而人类的概念系统则优先考虑适应性细微差别和语境丰富性,即便这会降低统计压缩效率。这些发现突显了当前人工智能与人类认知架构之间的根本差异,并为开发出更符合人类思维的LLMs指明了方向。Source: <https://arxiv.org/abs/2505.17117>

6个月前
8分钟
Comment on The Illusion of Thinking

Comment on The Illusion of Thinking

该论文对 Shojaee 等人(2025)关于大型推理模型(LRM)在规划难题上表现出“准确性崩溃”的说法提出了质疑。Lawsen 的评论认为,这种所谓的崩溃并非源于模型固有的推理缺陷,而是由实验设计中的多个关键缺陷造成的。这些问题包括:河内塔实验中模型输出超出令牌限制,导致模型为避免过长而截断输出;自动化评估框架未能区分推理失败和实际约束,错误地将模型能力进行分类;以及在河渡谜题中包含数学上无解的问题实例,导致模型因未能解决不可能的问题而被错误地评为失败。Lawsen 的研究通过请求生成函数而非详尽的移动列表,初步实验表明模型在之前被报告为完全失败的河内塔实例上仍能保持高准确性。这篇评论强调了在评估人工智能推理能力时,仔细进行实验设计的重要性,并认为模型能感知其自身的上下文限制,而程序化评估未能捕捉到模型的真实能力和谜题的不可能性。Source: <https://arxiv.org/abs/2506.09250>

6个月前
7分钟
大型语言模型的学习能力探究

大型语言模型的学习能力探究

该论文通过引入一个受认知心理学和教育启发的新框架,全面探讨了大型语言模型(LLMs)的学习能力。它将LLM的学习分解为三个关键维度:向教师学习(通过明确指导获取知识)、从概念学习(内化抽象结构并推广到新语境),以及从经验学习(通过累积探索和反馈进行适应)。研究人员进行了一项广泛的实证研究,揭示了LLM学习能力的关键发现,例如互动能提升学习效果,概念理解能力随模型规模而增强,且LLMs在少样本学习中表现出色但在多样本学习中遇到挑战。基于这些发现,该来源提出了LearnArena基准测试,旨在对LLM的通用学习能力进行统一且真实的评估,以促进开发出更具适应性和类人智能的模型。Source: <https://arxiv.org/abs/2506.13464>

6个月前
9分钟
Magistral

Magistral

该文本介绍了 MistralAI 开发的 Magistral 大型语言模型,该模型专注于通过 强化学习 (RL) 提升推理能力。文档详细阐述了他们的 RL 训练流程,包括对 GRPO 算法的修改,以及如何通过 奖励塑形 来确保模型输出的 格式、正确性、长度和语言一致性。此外,文章还描述了他们为 数学和代码问题 构建 高质量数据集 的过程,并展示了 Magistral Medium 和 Magistral Small 模型在各种 推理基准测试 上的卓越性能。值得注意的是,研究表明,即便只使用文本数据进行 RL 训练,模型也能 保持甚至提升多模态理解能力 和 指令遵循 等现有功能。Source:- <https://mistral.ai/static/research/magistral.pdf>- <https://arxiv.org/abs/2506.10910>

7个月前
8分钟
OThink-R1

OThink-R1

论文介绍了一种名为 OThink-R1 的新型大型推理模型,该模型旨在通过模仿人类的 “快思”和“慢思”模式 来提高效率。传统的大型推理模型在解决简单任务时往往会进行不必要的冗余推理,从而产生高昂的计算成本。OThink-R1 通过 识别并修剪这些冗余的推理轨迹,同时 保留核心的必要推理步骤,从而解决了这一问题。该模型能够 根据任务复杂性 动态地在这两种思维模式之间切换,在保持甚至提升准确性的同时,显著减少了生成的 tokens 数量。研究结果表明,这种方法在数学和问答任务中都能有效降低推理冗余,为开发更高效的人工智能系统提供了实际指导。Source: <https://arxiv.org/abs/2506.02397>

7个月前
7分钟