费用下降了88%! Tongyi实验室和北京大学发布了ZeroSearch,该搜索激活LLM搜索功能而

本文的五月启动源自Thyi实验室和北京大学。第一个是北京大学情报学院的医生研究Sun Hao。他的主要研究方向是抹布和代理。他在神经,ACL和EMNLP等国际顶级会议上发表了许多论文,并在Zhang Yan教授的领导下进行了研究。这项工作是在与阿里巴巴·汤蒂(Alibaba Tongyi)实验室抹布团队实习期间完成的。信息功能对于改善大语模型(LLM)的性能识别很重要。最近的研究试图引入强化学习框架(RL),以激活LLMS主动收集信息的能力,但是现有方法在培训过程中面临两个主要挑战:不会联系文档质量:真实搜索引擎返回的内容失控,并且训练过程易于噪音。搜索API很昂贵:搜索API经常在控制下调用阶段,培训成本很高。为了解决这些问题,我们提出了Zerosarch的框架 - 一种技术,该技术无需进行大型语言模型即可直接模拟搜索引擎,而无需进行真正的搜索,并介绍了课程研究技术,以将成本显着降低88%,同时执行多种方式依靠许多活动中的真实搜索引擎。 Paper Title: Zerosearch: Intentivize the ability to find LLMs without looking for a paper address: https://arxiv.org/pdf/2505.04588 Code Address: https://github.com/alibaba-nlp/zerosarch Project Homepage: https: /alibababa-nlp.github.io/zerosearchhuggingface hoMepage: https://huggingface.co/collections/sunhaonlp/zerosarch-v2-6827f4e6b6265069d443d4e程序。传统的培训方法需要处于经常与真实搜索引擎相互作用的控制阶段,从而导致大量API开销。大型语言模型在训练阶段积累了世界丰富的知识,并且能够信息基于查询的信息。因此,ZeroSarch将大型语言模型作为仿真搜索引擎(仿真LLM)引入,并且可以在不进行实际搜索的情况下为策略模型生成搜索文档,这大大降低了培训成本:为避免策略模型记住LLM模拟所产生的文档,我们使用了丢失的文档(丢失文档)在策略模型中使用的文档(损失)。 Zerosarch的结构化训练模板直接加强了预培训的语言模型,而无需首次进行微调(SFT)。研究培训,使用有组织的培训模板,指导该模型在每种访谈中分配每种访谈的思维步骤:研究现有信息,在搜索中,搜索,概述推理的原因,并形成最终答案。该结构化模板提高了模型推理路径的清晰度和解释性,-format输出有助于获取Final回答计算奖励。通过提示LLM提示指南生成的模拟搜索内容微调的仿真模拟通常与真实搜索引擎返回的内容NG搜索的样式差异很大,而质量不稳定。为了解决这些问题,我们采用了一种模拟方法来修复微调,其中包括以下三个步骤:轨迹获取:在策略策略和真实的搜索引擎查询质量质量评估之间进行互动:使用QWEN-MAX作为审查,我们对微型调格进行了微调的精细计算,仅需进行细调的精细计算,仅需30分钟的细数即可)。此外,我们还迅速介绍了对原始问题的正确答案,从而扩大了LLM模拟知识的边界。基于课程的文档策略Fine Simulation LLM通过修复PAADD有用/嘈杂i,可以灵活控制生成文档的质量提示。基于这种能力,我们甚至引入了一种课程研究策略,该策略逐渐降低了文档的质量并逐渐增加了培训的困难,从而更有效地刺激了模型的推理能力。为了实现适当的训练难度转移,我们设计了指数级的功能来控制产生嘈杂文档的可能性:在培训的早期阶段:训练的难度增加缓慢,并且该模型可以继续了解工作的基本输出格式和工作的逻辑。最终,在培训期间,难度训练会迅速增加,激发了模型继续增强推理的能力和稳定性。这个简单的训练过程可以继续促进方法的技巧,并有效地提高增强学习的稳定性和最终表现。奖励实验的奖励设计,我们发现使用确切的MA作为奖励,TCH将激发模型生成动词内容以“按”答案,并出现奖励的问题。我们使用F1标记作为奖励指标,以更加关注输出的准确性和简单性,从而有效地阻止了冗余答案的产生。此外,我们发现该模型即使在训练过程中没有明确给药,因此该模型也可能提出结构规格,因此没有引入奖励格式。实验Zerosarch结果的主要性能是主要基线方法。该性能的优势可以在域内和外域数据集中看到,显示了我们技术的稳定性。 Zerosarch的性能要比依靠真实搜索引擎(搜索R1)的方法要好,该方法具有大规模增强研究替代真实搜索引擎的潜力。 Zerosean RCH在整体上表现出强大的能力。作为模型par的数量进一步增加了进一步的性能,反映了良好的可扩展性。与真实的搜索引擎相比,随着培训的出现,Zerosearch和Search-R1奖励分数继续增加。 Zerosearch的奖励奖励更有意义。尽管在培训的早期阶段,Zerosarch的奖励价值小于Search-R1,但它最终将超过它并具有Lesskasumpunan。 Zerosarch在主要模型和模型适当调整的教学中都表现出了出色的总体能力。在这两种类型的模型下,Zerosearch的奖励性能将继续改善。与基本模型相比,模拟搜索设置,不同类型的LLM模拟可以有效刺激策略模型搜索功能。基于及时的过程的结果很差,主要是因为其生成的文档样式与真实的搜索引擎非常不同,并且质量不稳定,因此很难支持稳定的培训。微调模拟lLM即使仅具有3B参数,LM也可以显着提高该方法模型的性能。随着量表的扩大,性能将进一步改善:SFT-7B可能会对Google的可比效果,而SFT-14B甚至超过了Google的性能。在训练的早期阶段,接触的连贯数量:接触的接触次数迅速减少,奖励正在减慢。在此阶段,该模型尚未掌握搜索和调用机制,并且经常产生冗余的接触,而提取的效果不好。中期训练:交互式周期的数量迅速反弹,奖励同步已大大改善。该模型逐渐学习了如何很好地调用搜索引擎,可以获取准确的信息,并显着提高答案的质量。最终在训练期间:接触和奖励的连贯数量趋于稳定。 Modelo适应了跳跃S数据集分布,接触方法逐渐加强。在课程研究设置下,该模型需要提高推理应对较低质量文档的能力,从而保持较高的奖励水平。研究课程研究策略的实验结果表明,课程(来自易于困难)培训策略明显优于随机(随机难度)培训策略,这证实了该训练天堂在刺激推理能力方面的有效性。与随机的真实搜索引擎相似,在培训期间很难控制文档中的难度,导致模型缺乏系统的提高功能的途径,从而限制了推理能力的持续发展。总结本文建议Zerosearch是一个加强的研究框架,可激活在没有实际搜索引擎的情况下找到大型语言模型的能力。我们使用轻巧的微调对Transform llm进入搜索模块。在RL培训阶段,我们根据课程的研究逐渐降低了搜索模型产生的文档质量,并逐渐通过继续提高搜索难度来刺激理解战略模型的能力。大量实验表明,ZeroSarch使用3B参数刻度模型作为检测模块,可以刺激语言模型的搜索能力。 7B模型搜索的性能在真实的搜索引擎中是Malapit,而14B模型甚至达到了超越。此外,Zerosearch具有出色的功能,可用于基本模型和教学模型,并且与不同的RL算法兼容,并且具有高度可调节和测量。
请尊重我们的辛苦付出,未经允许,请不要转载澳门新葡澳京APP_澳门新葡游戏网登录入口的文章!