beat365亚洲体育在线官网_best365官方网站登录

UIUC在Google上加入以发布搜索

2025-04-24 10:40


这篇文章的人来自伊利诺伊大学香槟(UIUC),马萨诸塞大学(UMASS)和Google。本文的第一本是对UIUC医生Jin Bowen的研究,其主要研究指示是代理,关于刺激与大语言模型相关的强化的推理和研究。其他正在学习的学生是对UMass Zeng Hanwei医生的研究,并将学习UIUC医生Yue Zhenrui。本文的集是UIUC教授Han Jiawei。 DeepSeek-R1显示了学习加强在提高模型识别能力方面的巨大潜力,尤其是在不需要手动注释的构想过程时,该模型可以学习如何更合理地调整答案。但是,这样的模型缺乏对外部数据源的无效访问,一旦培训语料库中不存在一些基本信息,构思过程通常由于缺乏知识而失败。同时,另一个方向搜索 - 获得增强发电(RAG),试图通过引入外部搜索引擎来减轻上述问题。现有的抹布方法主要分为两类:基于基于的方法:指导大型模型用直接词调用搜索引擎。尽管此方法不需要额外的培训,但它具有明显的局限性:大型模型本身可能无法与搜索引擎进行交互,例如如何搜索搜索,哪些关键字搜索等,这些搜索通常会导致呼吁行为的无能或冗余。基于监督微调(SFT)的培训方法:通过开发高质量的数据集,训练模型以找出合理的搜索和呼叫技术。这种类型的过程更容易调整,但是它面临着可扩展性差的问题:一方面,开发涵盖邪恶理解路径的优质搜索数据非常昂贵;另一方面,因为SE的操作拱门本身没有什么不同,它不直接包括梯度优化过程,从而阻止了最终训练的有效性。到目前为止,我们建议一个新的培训范式-R1。它基于一项强化研究,并训练大型模型,以独立掌握交替推理和搜索性环境研究的方法,这是“推理,搜索”的闭环代理,实际上是在实现的。纸张标题:search-r1:培训LLM对推理和扣押搜索引擎的搜索引擎,并使用强化学习纸张地址:https://arxiv.org/abs/2503.09516代码地址:https://github.com/petergriffinjin/search-r1huggingface主页: https://huggingface.co/collections/peterjingo/search-r1-67d1a021202731cb065740f5方法是增加学习加强传统RL方法的强大轮廓的方法,通常允许仅允许大型模型来创建固定输入的答案。 search-r1引入了交互式“搜索引擎模块”,允许t他建模以在生成过程中的任何时间开始搜索请求,以获取外部知识,从而提高推理的质量。 Upagy避免在培训期间自行避免搜索结果的不必要的“内存”,我们已经失去了搜索引擎的文本掩盖,以确保模型仅学习如何证明搜索增强的上下文是合理的,而不是简单地复制外部知识。搜索R1搜索调用的许多周期的生成机制使模型可以在响应之前进行多个合理性周期和搜索。特定过程如下:该模型首先通过...标签执行理解;如果模型判断当前知识不足,则将对关键字进行处理;系统会自动调用搜索引擎并输入上下文搜索以...的形式;该模型继续基于新信息来推理答案是输出。整个过程是高度模块化的受到验证,支持许多搜索引擎和自定义搜索技术。概述了培训模板,我们设计了一个简单但有效的训练模板来编织所有培训样本的格式:该训练模板指导大型语言模型以结构化的方式与外部搜索引擎进行交互,同时保持策略的策略,以便该模型能够在研究加强过程中感染。轻量级奖励设计以降低培训和复杂性成本,我们根据最终答案的准确性采用了奖励功能,而没有开发额外的神经标记模型网络,从而提高了训练效率并降低了方法对信号偏见的敏感性。搜索R1实验结果的主要性能已在所有数据集中取得了领先的性能,其中QWEN2.5-7B模型平均提高了41%,而3B模型则增加了20%,与METH相比具有显着优势诸如抹布和cot之类的OD。搜索引擎引入的RL比纯RL(R1)识别更好,该识别证明了缺乏知识的问题的重要性。它在零样本和交叉任务迁移方案中也具有稳定的性能,例如Popqa,Musique,Bamboogle和其他模型,这些模型仍然对Popqa,Musique和Bamboogle等模型从未见过的任务保持着重要好处。较大的模型对Hallingfind更加敏感,并且具有更好的结果,并且7B模型与3B相比显示出更大的性能提高。与GRPO相比,我们将系统地比较两种RL优化技术:GRPO快速转换,但在训练阶段可能会混乱。 PPO的性能更稳定,最终性能略高于GRPO,这成为默认调节调整。训练两者的最终奖励是相似的,并且适合于搜索R1优化目的。根据与教学模型教学相比,模型显示:教学最初的绩效模型出色,培训速度更快;但是在培训之前,基本模型可以取得相似或更好的结果。肯定的研究是两个结构化推理活动之间的能力差异。搜索和响应结构模型输出的动态研究在初步训练中较短,并且搜索行为较少。随着培训的进行,该模型逐渐学会了更频繁地调用搜索,并且响应的长度增加。这表明该模型逐渐掌握了“推理原因”的动态交互方法。总结本文建议Search-R1是一个新的强化研究框架,该框架可以灵活地在发电过程中调用搜索引擎的大型语言模型,从而实现了推理和外部收购的深入整合。与传统的工具或工具使用解决方案相比RCH-R1不需要大型数据管理,而是使用RL独立学习使用信息和信息的技术。我们证明,在七个问答活动中,我们已证明绩效的显着提高,并系统地评估了各种培训训练技术的影响。将来,我们希望将此框架扩展到更多的工具和信息来源,以探索其在多模式推理活动中应用的潜力。

服务支持

我们珍惜您每一次在线询盘,有问必答,用专业的态度,贴心的服务。

让您真正感受到我们的与众不同!