大模型论文天天读
Education

大模型论文天天读

作者: AI008
最近更新: 2个月前
notebooklm 助读大模型论文

Recent Episodes

OneRec-V2

OneRec-V2

该技术报告介绍了 OneRec-V2,这是一个用于推荐系统的工业级生成式框架,旨在解决其前身 OneRec-V1 的可扩展性和性能瓶颈。OneRec-V2 的主要创新在于采用了一种 Lazy Decoder-Only 架构,该架构通过消除传统编码器并简化交叉注意力机制,将计算需求降低了 90% 以上,从而实现了模型参数的有效扩展(最高可达 80 亿)。此外,该系统引入了基于 真实用户互动 的偏好对齐(Preference Alignment)机制,包括 Duration-Aware Reward Shaping 和 Gradient-Bounded Policy Optimization (GBPO),以更好地利用用户反馈信号并增强训练稳定性。在快手和快手极速版上的 A/B 测试 表明,OneRec-V2 在显著提升 App 停留时间 等关键指标的同时,有效平衡了多目标推荐,避免了此消彼长的问题。arxiv.org

2个月前
19分钟
深度残差学习实现图像识别

深度残差学习实现图像识别

这篇研究介绍了残差学习框架 (residual learning framework),旨在解决训练极深神经网络时出现的优化难度和准确性退化问题 (degradation problem)。研究人员通过将网络层重构为学习相对于输入数据的残差函数 (residual functions),而不是直接学习未引用的映射,极大地简化了训练过程。这种方法通过恒等快捷连接 (identity shortcut connections)实现,能够在不增加参数或计算复杂度的情况下,构建并有效训练深度超过100甚至1000层的网络。实验结果表明,残差网络不仅易于优化,而且能从显著增加的深度中获得更高的准确度,最终在ILSVRC 2015 图像分类以及多项目标检测和定位任务中取得**第一名 (1st place)**的优异成绩。 https://arxiv.org/pdf/1512.03385

2个月前
24分钟
快手OneRec揭秘

快手OneRec揭秘

he research introduces OneRec, a novel generative recommender system designed to unify the traditional multi-stage "retrieve-and-rank" process into a single, end-to-end generative model. This unified approach, implemented with an encoder-decoder architecture and a sparse Mixture-of-Experts (MoE) structure for scalable capacity, overcomes the limitations of cascaded ranking systems. Crucially, OneRec employs a session-wise generation method, predicting a list of coherent items rather than just the next item, and incorporates an Iterative Preference Alignment (IPA) module using Direct Preference Optimization (DPO) tailored for recommendation sparsity to significantly enhance result quality. The model has been successfully deployed on the Kuaishou platform, demonstrating superior performance by achieving a substantial increase in watch-time metrics.arxiv.org

2个月前
22分钟
Qwen3

Qwen3

Qwen3,Qwen模型家族的最新版本,该系列大型语言模型旨在提升性能、效率和多语言能力。Qwen3系列包含参数规模从0.6到2350亿的密集型和MoE(混合专家)架构模型。Qwen3的关键创新在于将思考模式(用于复杂、多步骤推理)和非思考模式(用于快速、上下文驱动的响应)整合到一个统一框架中,并引入了思考预算机制,允许用户在推理过程中自适应分配计算资源。通过利用旗舰模型的知识,Qwen3显著降低了构建小型模型所需的计算资源,同时确保了其极具竞争力的性能。实证评估表明,Qwen3在各种基准测试中均达到了最先进的水平,并将其多语言支持从29种扩展到119种语言和方言。2505.09388

5个月前
7分钟
检索增强生成模型 (RAG)

检索增强生成模型 (RAG)

这篇研究论文介绍了检索增强生成(RAG)模型,这是一种结合了预训练参数化和非参数化记忆的语言生成方法。该研究探索了两种RAG模型:RAG-Sequence和RAG-Token,它们通过神经检索器访问维基百科的密集向量索引作为非参数记忆,并使用预训练的序列到序列模型作为参数记忆。通过在各种知识密集型自然语言处理任务上进行微调和评估,包括开放域问答、抽象问答、问题生成和事实核查,研究表明RAG模型在多个基准测试中取得了最先进的结果,并且比纯参数化模型生成了更具体、多样和符合事实的语言。此外,该研究强调了可热插拔的非参数记忆的优势,允许轻松更新模型的知识,而无需再训练,并讨论了该方法的社会影响。arxiv.org

6个月前
10分钟
AutoCodeRover: Autonomous Program Improvement

AutoCodeRover: Autonomous Program Improvement

https://arxiv.org/abs/2404.05427 在过去几十年中,研究人员在实现软件开发过程自动化方面取得了重大进展。大语言模型(LLMs)的最新进展对开发过程产生了重大影响,开发人员可以使用基于 LLM 的编程助手来实现自动编码。然而,除了编码之外,软件工程还涉及程序改进过程,特别是为了实现软件维护(如修复漏洞)和软件演进(如添加功能)。在本文中,我们提出了一种自动解决 GitHub 问题的方法,以自主实现程序改进。在我们名为 AutoCodeRover 的方法中,LLMs 与复杂的代码搜索功能相结合,最终实现程序修改或补丁。与人工智能研究人员和从业者最近提出的 LLM 代理方法不同,我们的视角更侧重于软件工程。我们处理的是程序表示(抽象语法树),而不是将软件项目仅仅视为文件的集合。 我们的代码搜索利用类/方法形式的程序结构,来增强大语言模型(LLM)对问题根本原因的理解,并通过迭代搜索有效地检索上下文。只要有测试套件,使用基于测试的频谱故障定位,就能进一步优化上下文。在 SWE-bench-lite(300 个真实的 GitHub 问题)上进行的实验表明,解决 GitHub 问题的效率有所提高(在 SWE-bench-lite 上提高了 19%),高于最近报道的 SWE-agent 的效率。此外,与其他基线相比,AutoCodeRover 以显著更低的成本(平均 0.43 美元)实现了这一效率。我们认为,我们的工作流程能够实现自主软件工程,未来,大语言模型(LLMs)自动生成的代码可以得到自主改进

7个月前
8分钟
Code Llama面向代码的开源基础模型

Code Llama面向代码的开源基础模型

Code Llama,这是一系列基于 Llama 2 的代码大语言模型,在开源模型中具有领先的性能、填充能力、对大输入上下文的支持,以及针对编程任务的零样本指令跟随能力。我们提供多种类型以涵盖广泛的应用场景:基础模型(Code Llama)、Python 专用模型(Code Llama - Python),以及指令跟随模型(Code Llama - Instruct),每个模型分别有 70 亿、130 亿、340 亿和 700 亿参数。所有模型均在 1.6 万个词元的序列上进行训练,并且在长达 10 万个词元的输入上表现出改进。70 亿、130 亿和 700 亿参数的 Code Llama 和 Code Llama - Instruct 变体支持基于周围内容的填充。Code Llama 在多个代码基准测试中达到了开源模型中的领先性能,在 HumanEval 和 MBPP 上的得分分别高达 67%和 65%。值得注意的是,Code Llama - Python 70 亿参数模型在 HumanEval 和 MBPP 上的表现优于 Llama 2 700 亿参数模型,并且我们所有的模型在 MultiPL-E 上的表现都超过了其他所有公开可用的模型。我们以宽松的许可协议发布 Code Llama,允许用于研究和商业用途https://arxiv.org/abs/2308.12950

7个月前
18分钟
SWE-smith:为软件工程智能体扩展数据

SWE-smith:为软件工程智能体扩展数据

尽管用于软件工程的语言模型(LM)最近取得了进展,但收集训练数据仍然是一个重大痛点。现有的数据集规模较小,最多只有来自 11 个或更少 GitHub 代码库的数千个训练实例。整理此类数据集的流程通常很复杂,需要数百小时的人力;配套的执行环境也会占用数 TB 的存储空间,严重限制了其可扩展性和可用性。为解决这一痛点,我们推出了 SWE-smith,这是一种用于大规模生成软件工程训练数据的全新流程。给定任何 Python 代码库,SWE-smith 会构建相应的执行环境,然后自动合成数百到数千个任务实例,这些实例会破坏代码库中现有的测试。利用 SWE-smith,我们创建了一个包含 5 万个实例的数据集,这些实例来自 128 个 GitHub 代码库,比之前所有研究成果的数据量都大一个数量级。我们训练了 SWE-agent-LM-32B,在 SWE-bench Verified 基准测试中达到了 40.2%的一次通过率,在开源模型中处于领先水平。 我们开源了 SWE-smith(收集流程、任务实例、轨迹、模型),以降低自动化软件工程大语言模型系统研究的准入门槛https://arxiv.org/abs/2504.21798

7个月前
14分钟
deepseek v3

deepseek v3

本篇论文介绍了DeepSeek-V3,一个拥有6710亿参数的庞大混合专家(MoE)语言模型。文章详细阐述了其架构创新,特别是无需辅助损失的负载均衡策略和多令牌预测目标,旨在提高训练效率和模型性能。此外,文中也探讨了DeepSeek-V3训练基础设施的优化,包括计算集群、低精度训练技术和内存节省策略。论文还介绍了预训练和后期训练的细节,包括数据构建、长上下文扩展以及在多种基准测试上的评估结果。文章最后讨论了模型的局限性并对未来硬件设计提出了建议,强调了DeepSeek-V3在成本效益和性能方面的优势,尤其在编码和数学任务上表现突出,同时承认了其部署方面的挑战。http://arxiv.org/abs/2412.19437

7个月前
7分钟
gpt3.5 paper

gpt3.5 paper

Making language models bigger does not inherently make them better at following a user's intent. For example, large language models can generate outputs that are untruthful, toxic, or simply not helpful to the user. In other words, these models are not aligned with their users. In this paper, we show an avenue for aligning language models with user intent on a wide range of tasks by fine-tuning with human feedback. Starting with a set of labeler-written prompts and prompts submitted through the OpenAI API, we collect a dataset of labeler demonstrations of the desired model behavior, which we use to fine-tune GPT-3 using supervised learning. We then collect a dataset of rankings of model outputs, which we use to further fine-tune this supervised model using reinforcement learning from human feedback. We call the resulting models InstructGPT. In human evaluations on our prompt distribution, outputs from the 1.3B parameter InstructGPT model are preferred to outputs from the 175B GPT-3, despite having 100x fewer parameters. Moreover, InstructGPT models show improvements in truthfulness and reductions in toxic output generation while having minimal performance regressions on public NLP datasets. Even though InstructGPT still makes simple mistakes, our results show that fine-tuning with human feedback is a promising direction for aligning language models with human intent.扩大语言模型的规模,本质上并不会让它们在理解用户意图方面表现得更好。例如,大语言模型可能会生成不实、有害或对用户毫无帮助的内容。换句话说,这些模型与用户的需求并不契合。在本文中,我们展示了一种通过利用人类反馈进行微调,使语言模型在广泛任务中与用户意图保持一致的方法。我们从一组标注员编写的提示以及通过 OpenAI API 提交的提示入手,收集了一个数据集,其中包含标注员对模型期望行为的示范,我们利用这些数据通过监督学习对 GPT-3 进行微调。随后,我们收集了一个模型输出排名的数据集,并利用这些数据通过人类反馈强化学习对这个经过监督学习微调的模型进行进一步优化。我们将最终得到的模型称为 InstructGPT。在针对我们提示分布的人工评估中,尽管 13 亿参数的 InstructGPT 模型参数数量比 1750 亿参数的 GPT-3 少 100 倍,但其输出却更受青睐。 此外,InstructGPT 模型在真实性方面有所提升,有害输出的生成有所减少,同时在公开自然语言处理数据集上的性能退化极小。尽管 InstructGPT 仍然会犯一些简单错误,但我们的结果表明,利用人类反馈进行微调是使语言模型与人类意图保持一致的一个有前景的方向。https://arxiv.org/abs/2203.02155

7个月前
9分钟
gpt3 精读Language Models are Few-Shot Learners 语言模型是少样本学习者

gpt3 精读Language Models are Few-Shot Learners 语言模型是少样本学习者

Recent work has demonstrated substantial gains on many NLP tasks and benchmarks by pre-training on a large corpus of text followed by fine-tuning on a specific task. While typically task-agnostic in architecture, this method still requires task-specific fine-tuning datasets of thousands or tens of thousands of examples. By contrast, humans can generally perform a new language task from only a few examples or from simple instructions - something which current NLP systems still largely struggle to do. Here we show that scaling up language models greatly improves task-agnostic, few-shot performance, sometimes even reaching competitiveness with prior state-of-the-art fine-tuning approaches. Specifically, we train GPT-3, an autoregressive language model with 175 billion parameters, 10x more than any previous non-sparse language model, and test its performance in the few-shot setting. For all tasks, GPT-3 is applied without any gradient updates or fine-tuning, with tasks and few-shot demonstrations specified purely via text interaction with the model. GPT-3 achieves strong performance on many NLP datasets, including translation, question-answering, and cloze tasks, as well as several tasks that require on-the-fly reasoning or domain adaptation, such as unscrambling words, using a novel word in a sentence, or performing 3-digit arithmetic. At the same time, we also identify some datasets where GPT-3's few-shot learning still struggles, as well as some datasets where GPT-3 faces methodological issues related to training on large web corpora. Finally, we find that GPT-3 can generate samples of news articles which human evaluators have difficulty distinguishing from articles written by humans. We discuss broader societal impacts of this finding and of GPT-3 in general.最近的研究表明,通过在大规模文本语料库上进行预训练,然后针对特定任务进行微调,许多自然语言处理(NLP)任务和基准测试都取得了显著进展。虽然这种方法在架构上通常与任务无关,但它仍然需要针对特定任务的、包含数千或数万个示例的微调数据集。相比之下,人类通常仅通过几个示例或简单指令就能执行一项新的语言任务,而这正是当前 NLP 系统仍难以做到的。在此我们表明,扩大语言模型的规模能极大提升与任务无关的少样本学习性能,有时甚至能与先前最先进的微调方法相媲美。具体而言,我们训练了拥有 1750 亿参数的自回归语言模型 GPT-3,其参数数量比此前任何非稀疏语言模型都多 10 倍,并在少样本设置下测试了它的性能。对于所有任务,GPT-3 在应用时不进行任何梯度更新或微调,任务和少样本示例完全通过与模型的文本交互来指定。 GPT-3 在许多自然语言处理(NLP)数据集上都取得了出色的表现,包括翻译、问答和完形填空任务,以及一些需要即时推理或领域适应的任务,如解乱序单词、在句子中使用新单词或进行三位数算术运算。同时,我们也指出了一些 GPT-3 的少样本学习仍存在困难的数据集,以及一些 GPT-3 在大规模网络语料库上训练时面临方法学问题的数据集。最后,我们发现 GPT-3 可以生成新闻文章样本,人类评估者很难将其与人类撰写的文章区分开来。我们讨论了这一发现以及 GPT-3 总体上对社会更广泛的影响。https://arxiv.org/abs/2005.14165

7个月前
31分钟
Reflexion:基于言语强化学习的语言智能体

Reflexion:基于言语强化学习的语言智能体

Large language models (LLMs) have been increasingly used to interact with external environments (e.g., games, compilers, APIs) as goal-driven agents. However, it remains challenging for these language agents to quickly and efficiently learn from trial-and-error as traditional reinforcement learning methods require extensive training samples and expensive model fine-tuning. We propose Reflexion, a novel framework to reinforce language agents not by updating weights, but instead through linguistic feedback. Concretely, Reflexion agents verbally reflect on task feedback signals, then maintain their own reflective text in an episodic memory buffer to induce better decision-making in subsequent trials. Reflexion is flexible enough to incorporate various types (scalar values or free-form language) and sources (external or internally simulated) of feedback signals, and obtains significant improvements over a baseline agent across diverse tasks (sequential decision-making, coding, language reasoning). For example, Reflexion achieves a 91% pass@1 accuracy on the HumanEval coding benchmark, surpassing the previous state-of-the-art GPT-4 that achieves 80%. We also conduct ablation and analysis studies using different feedback signals, feedback incorporation methods, and agent types, and provide insights into how they affect performance.大型语言模型(LLMs)越来越多地被用作目标驱动的智能体,与外部环境(如游戏、编译器、应用程序编程接口)进行交互。然而,对于这些语言智能体来说,要像传统强化学习方法那样通过反复试验快速有效地学习,仍然具有挑战性,因为传统方法需要大量的训练样本和昂贵的模型微调。我们提出了 Reflexion,这是一种新颖的框架,它不是通过更新权重,而是通过语言反馈来强化语言智能体。具体来说,Reflexion 智能体会对任务反馈信号进行语言反思,然后将自己的反思文本保存在情景记忆缓冲区中,以便在后续试验中做出更好的决策。Reflexion 足够灵活,可以纳入各种类型(标量值或自由形式语言)和来源(外部或内部模拟)的反馈信号,并且在各种任务(顺序决策、编码、语言推理)上相对于基线智能体都有显著改进。例如,Reflexion 在 HumanEval 编码基准测试中达到了 91%的一次通过率,超过了之前最先进的 GPT-4(其通过率为 80%)。 我们还使用不同的反馈信号、反馈整合方法和智能体类型进行了消融和分析研究,并深入探讨了它们对性能的影响。https://arxiv.org/abs/2303.11366

7个月前
29分钟
大型语言模型(LLMs)赋能的软件工程代理的综合性调查arXiv:2409.02977 [cs]

大型语言模型(LLMs)赋能的软件工程代理的综合性调查arXiv:2409.02977 [cs]

关于大型语言模型(LLMs)赋能的软件工程代理的综合性调查报告。文章深入探讨了基于LLM的代理在软件工程(SE)领域的应用,强调了它们通过感知和利用外部资源和工具增强了LLMs的能力。通过对106篇论文的分析,研究将现有工作分为SE和代理两个视角进行讨论,涵盖了从需求工程到代码生成、测试和维护等各种SE任务。此外,文章还讨论了代理系统的核心组成部分,包括规划、记忆、感知和行动,并分析了多代理系统和人与代理协作的不同形式。最后,文章指出了该领域的开放挑战和未来研究方向,例如改进评估方法和探索更多样的感知模式https://arxiv.org/abs/2409.02977 

7个月前
31分钟