
这是一项实时加固研究! AI不再害怕“口吃”。想象一下未来的场景,许多厨师机器人一起制作煎蛋。尽管我们期望这些机器人使用最强大,最可靠的智能模型,但更重要的是,它们应该保持恒定的速度速度,需要将其添加到准确的时机中,并且需要实时监控炸鸡蛋过程,以确保加热。只要机器人移动略有延迟,鸡蛋卷肯定会燃烧。他们还应该处理伴侣的行动中的不确定性,并立即调整适应性。但是,对实时强化的研究,现有的加强研究算法通常基于理想的接触模式:环境和代理“暂停”,以等待另一方完成计算或响应。特别指的是:环境环境假设:当代理进行计算和研究经验时,状态Of环境保持静止;代理商暂停假设:当环境状态发生变化时,代理停止时,代理停止了制定过程。这个假设类似于“基于转弯的游戏”,对现实很严重,很难应付持续变化和敏感性延迟的真实环境。下图具有实时环境中无法遇到标准基于RL的研究的两个主要困难。首先,由于很长一段时间,代理商可能不会在环境的每个步骤中采取行动。可能是humantong,这是一种采用了一种新的次优方法,称为非忍耐。第二个困难是该动作是基于以前的状态计算的,因此该动作将延迟环境影响。这导致了另一个新的次级优势来源,这在随机环境中尤其是遗憾的延迟。在这个背景下,两篇论文MILA实验室ICLR 2025的s提出了一项新的实时研究研究,旨在解决部署过程中当前的强化研究系统面临的延误和缺少问题,因此大型模型还可以立即对高流量,持续的任务做出即时响应。第一篇论文提出了一种解决方案,以减少没有FFEE的遗憾,第二篇论文提出了减少延迟的解决方案。最大程度地减少无动作:交错推理第一篇论文是基于以下事实:在通常的基于回合的研究研究研究研究研究中,该研究研究的研究水平没有作用增加而模型参数的数量增加。因此,强化研究社区应考虑一个新的扩展框架,以使现实世界中基础模型的强化教育。直到今天,本文提出了一个异步多进程推理和研究的框架。纸张地址:https://openreview.net/pdf?id = fxb9bbuyad代码地址https://github.com/cerc-aai/realtime_rl纸张标题:在该框架中启用实时加固学习pasamastagersgedasedasenchroniss的推断,允许代理在此框架中使用它们的可用计算计算能力来实现其可用的计算电源。具体而言,本文提出了两种相互关联的侵权算法,其主要思想是轻松调整并行理解的时机偏移,以便代理可以以更快的固定间隔执行环境动作。本文证明,只要计算资源足够,无论模型有多大或推理时间,在环境的每个步骤中都可以执行操作多长时间,从而完全消除了遗憾而无需采取行动。本文回顾了与Game Boy和Atari实时模拟提出的新框架,该框架与帧速率和帧速率和帧速率和联系协议同步,人们经历了WHEN实际上在主机上玩这些游戏。本文着重于在神奇宝贝蓝色游戏中使用1亿个参数模型成功获得神奇宝贝时,在成功获得神奇宝贝时所表现出的出色表现。应当指出的是,代理商不仅应迅速采取行动,而且还应继续适应新情况以发展发展。此外,该论文还具有大纲在实时游戏中的表现,例如俄罗斯方块的重点是反应时间。事实证明,使用异步推理和研究时,模型越大,性能越慢。但是,大型模型的性能的根本原因是延迟影响的延迟无法解决。在单个神经网络上不采取任何措施和遗憾NENTS,因为在实时环境中无法使用相关的理解。顺序计算在深网络中无效,因为深网上每一层的实现时间大致相同。因此,总延迟与网络深度的增加成正比增加,从而导致缓慢的响应。此限制与早期CPU体系结构的缺点完全相同 - 只有可以串行处理指令时,它会导致较低的计算资源使用和扩展执行时间。现代CPU成功解决了问题,这是一项管道技术,它为不同阶段的许多指令提供了内部实现。受到这一点的启发,本文向神经网络介绍了一个并行的计算机系统:通过同时计算所有网络层,它可以有效地减少遗憾而无需采取行动。为了进一步降低延迟,本文引入了暂时的跳过连接,因此新观察可以将信息传递到更深的网络中,不需要通过图层将网络层传递。这项研究的主要贡献是将平行计算与时机连接相结合,从而减少了免费的遗憾,并在实时系统中延迟了遗憾。以下数字解释了这一点。在图中,垂直轴表示网络层的深度。从最初的观察开始,它穿过遵循的第一层和第二层,并最终达到动作的输出。水平轴代表时间。因此,每个箭头代表计算层的过程,所需的时间为δ秒。在基线方法(左图像)中,应在整个N层网络中进行新的观察结果,因此该动作的输出需要秒n×δ才能获得。通过执行每层伴随计算(图中),可以理解吞吐量从每秒增加到每δ秒一次,从而减少了遗憾而无需作用。最后,与定时时间安排的连接(如Kanan所示)从Nδ减少到δ-该机制将允许以单个延迟在输出层上传递最新的观测值。从设计概念的角度来看,该解决方案是通过权衡网络表达功能的需求并结合证明信息来从根本上解决延迟问题。此外,改善先前动作/状态的输入可以恢复马尔可夫的特性,即使在存在延迟的情况下,也可以提高研究的稳定性。结果表明,它减少了相同的延迟,还减少了与优化相关的遗憾。两者的结合使用连贯的异步推理和时机连接彼此独立,但辅助工具。连接通过跳过时间减少观察Mod中的动作的延迟El,同时连贯的推理可确保即使使用大型模型也可以连续且稳定地输出动作。两者的组合可能会使模型量表从接触的延迟中分解,从而可以部署表达和响应实时环境的代理。在高度依赖响应速度的机器人技术,自动驾驶和金融交易等主要领域,这具有重要意义。通过使大型模型能够在不牺牲表达能力的情况下实现高频决策,这些方法已经迈出了基本的一步,以加强在现实世界中删除的应用中的研究。