您的位置:主页 > 新闻中心 > 行业资讯 >

小议论文随机网络蒸馏探索(RND):探索AI的好奇心!

行业资讯 / 2022-02-16 00:08

本文摘要:点击上方关注,All in AI中国近年来,强化学习已被证明是一种强大的技术,可以通过不停的奖励来解决关闭式任务,最常见的是游戏。当对行动的外部反馈(奖励)稀疏或不存在时,该领域的主要挑战仍然是训练模型。最近的模型试图通过建立一种主要被称为好奇心的内在奖励机制来克服这一挑战,该机制会奖励模型以发现新的地域和国家。OpenAI的一篇新论文“随机网络蒸馏探索”(RND)(Random Network Distillation)提出了一种内在奖励的新方法。

环球体育官方登录入口

点击上方关注,All in AI中国近年来,强化学习已被证明是一种强大的技术,可以通过不停的奖励来解决关闭式任务,最常见的是游戏。当对行动的外部反馈(奖励)稀疏或不存在时,该领域的主要挑战仍然是训练模型。最近的模型试图通过建立一种主要被称为好奇心的内在奖励机制来克服这一挑战,该机制会奖励模型以发现新的地域和国家。OpenAI的一篇新论文“随机网络蒸馏探索”(RND)(Random Network Distillation)提出了一种内在奖励的新方法。

该模型试图预测先前是否已经看到某个特定状态,并为不熟悉的状态提供更大的奖励。OpenAI想要勉励强化学习AI,去探索未知的世界,不要局限在已知的舒适区,这种方法专注造就AI的好奇心:只有好奇的AI才气发现。该模型显示了几个Atari游戏中最先进的效果,包罗蒙特祖玛的复仇游戏,众所周知,它对RL(强化学习)算法来说很难。但它也相对简朴,而且已经证明在包罗容易疏散注意力的配景噪声的情况中也是有效的。

配景强化学习(RL)是一组以奖励为导向的算法,意味着他们通过最大化从情况中获得的奖励来学习如何在差别的状态中行动。对于他们来说,一个具有挑战性的测试平台是30多年前开发的Atari游戏,因为它们提供了富厚的视觉输入(每帧210X160X3)以及为人类设计的种种各样的任务。游戏的庞大性和外部奖励的频率各不相同。在Breakout中,每当你打一块砖时都市给予一定的奖励,在蒙特祖玛的复仇游戏中,在一个关卡中只会有很少的奖励。

例如,蒙特祖玛的复仇被认为很具有挑战性,因为它需要很长时间(数百步)和庞大的行动组合来通报致命的障碍并找到奖励。下面的动画可以看到这两个游戏之间的区别。

Breakout - agent 经常收到外部奖励,每个砖块会有一个蒙特祖玛的复仇- 获取钥匙时只收到唯一的一个外部奖励为了在没有频繁外在奖励的游戏中取得乐成,agent必须探索更多的情况,从而发现一些奖励。这些情景在现实生活中很常见,从找到屋子里丢失的钥匙到发现新的抗癌药物。在这种情况下,agent需要使用内在奖励,同时主要独立于外在的奖励。RL有两种常见的内在奖励方法:基于计数的方法,保持先前会见状态的计数,并为新的状态提供更大的奖励。

这种方法的缺点是随着可能状态数量的增加,它往往变得不那么有效。差别的方法是“下一状态预测”,其中模型试图预测下一状态,接纳行动以移动到下一状态,然后与预测状态相比最小化误差。通过探索,更多的状态会变得众所周知,错误也会相应的淘汰。这些方法比仅基于外在奖励的模型(例如众所周知的模型DQN和A3C)体现更好,但比起普通人还是差一些。

一般而言,在使用内在奖励时,对未来状态的评估会遇到三种可能的错误泉源:不熟悉的状态错误- 模型无法从先前会见的状态推广到新状态,导致未来状态预测中会有高错误。通过重复发现新状态并从中学习,模型逐渐淘汰了这种错误。随机噪声- 这也称为噪声电视问题(Noisy-TV problem),其中一部门情况发生了随机噪声(如带电视的房间出现白噪声)。

这导致许多状态对agent来说是新的,而且下一个状态通常是不行预测的而且与agent的行动无关。模型约束- 模型的体系结构是有限的,不能足够准确地推广情况以预测下一个状态。

例如,预测下一个状态所需的神经网络中层的数量和巨细是未知的。RND如何运作?具有内在奖励的RL系统使用不熟悉的状态误差(错误#1)举行探索,并旨在消除随机噪声(错误#2)和模型约束(错误#3)的影响。为此,该模型需要3个神经网络:为给定状态生成常量输出的牢固目的网络,实验预测目的网络输出的预测网络,以及决议agent下一步行动的计谋网络。目的和预测网络通过盘算两个网络的输出之间的差异,目的和预测网络用于为不熟悉的状态发生更大的内在奖励。

这些网络具有相同的巨细和体系结构- 卷积编码器(CNN),然后是完全毗连的层,以将状态嵌入到特征向量f中。可是,它们之间存在重要差异:目的网络是具有牢固的随机权重的神经网络,其从未被训练。

因此,对于给定状态(输入),其输出是恒定的,但在差别状态之间是可变的:对于任何时间步长i,fi(x)= fj(x),对于任何两个差别的输入,fi(x)≠fi(y)。训练预测网络以预测目的网络的输出。每个状态被馈送到两个网络中而且训练预测网络以最小化它们的输出(ri)之间的差异(MSE)。目的和预测网络随着更多状态被馈入系统,预测网络在吸收已知状态时变得可以更好地预测目的网络输出。

当到达先前会见过的状态时,agent会收到一小笔奖励(因为目的输出是可预测的),而且agent会被克制再次会见它们。换句话说,与普通模型差别,agent不是试图凭据当前状态和行动来预测下一个状态,而是试图预测未来状态的新颖性。目的预测架构有几个利益:在对具有随机噪声的状态(来自牢固的牢固漫衍)举行充实训练之后,预测网络能够更好地预测目的网络的输出。随着预测误差减小,agent变得比其他未探测状态都更少地受到噪声状态的吸引。

这淘汰了Noisy-TV错误(#2)。在下一步预测模型中,事先不知道需要哪种架构(层数、层巨细等)来模拟行动的效果。可是,预测器网络只需要预测目的网络的效果。通过与目的网络具有相同的体系结构,它应该能够正确地学习熟悉状态的输出。

环球体育官方登录入口

这会“解决”模型约束错误(#3)。它让agent偏向于在游戏中保持活力,因为死亡迫使它回到熟悉的状态。其他“基于好奇心”的RL方法也有同样的利益。

该模型中的挑战之一是内在奖励随着更多状态变得熟悉而降低,而且可能在差别情况之间变化,使得它难以选择超参数。为了克服这一点,在每个更新周期中对内在奖励举行尺度化。

计谋网络(Policy network)计谋网络的作用是凭据当前状态及其内部模型来决议下一个操作,该模型是在之前的状态下训练的。为了做出这个决议,它使用输入嵌入器和计谋优化器:输入嵌入器输入嵌入器将情况状态编码为要素。

本文比力了2种体系结构--CNN或CNN和复发层(GRU细胞)的混淆物。假定复发层有助于通过“捕捉游戏”的较长情境来预测下一个行动,例如,在当前状态之前发生的事件,而且在大多数情况下确实被发现比仅有的CNN的层体现更好。PPO训练计谋模型的一个主要问题是融合,因为计谋往往会因奖励的单一更新而急剧变化。

环球体育官方登录入口

例如,在某些架构中,单个不良剧集(游戏)可以完全改变您的计谋。因此,在嵌入层之上,网络具有近端计谋优化器(PPO),其基于嵌入状态可以预测下一个行动。PPO的主要孝敬是通过限制一连计谋更新之间的差异来宁静地优化计谋而不举行基础的更新。为了更新计谋,PPO首先需要预计给定状态的未来内在和外在奖励(“价值头”)。

划分处置惩罚每种类型的奖励可以更灵活地确定每种类型对计谋的影响以及盘算每种类型的方式:在牢固的一批时间步骤上盘算内在奖励,例如128个时间步长,无论agent是否在游戏中“死亡”。研究发现,这种奇特的方法(非偶发性)可以实现更好的探索,因为它勉励agent接纳可能展现新状态的危险行为。如果内在奖励是偶然的,那么这些行动可能已经竣事了游戏,从而竣事了奖励。

在整个剧集中盘算外在奖励,直到agent死亡。使用非情节奖励可能会导致agent“破解”游戏。例如,通过寻找简朴快速的奖励然后自杀。

下面的图表显示了计谋网络和整个架构:计谋网络RND架构注意点:本文中的PPO使用Actor-Critic模型(A3C)实现。可是,它可以与任何有利功效一起使用。PPO的另一个利益是它通过允许多个训练epoch来提高训练效率,每个时期都有小批量的输入。限制政策更新可确保纵然有多个epoch,总变化也不会过于激进。

效果本文将RND模型与现有技术(SOTA)算法和两个类似模型作为消融测试作为基线举行比力:没有内在探索奖励的尺度PPO。基于前向动力学误差的具有内在奖励的PPO模型。

该模型基于当前状态和行动预测下一状态,并最小化预测误差,这是内在奖励。RNDagent在6场角逐中有3场取得了比力先进的结果,而且在蒙特祖玛的复仇中获得了比“普通人”更好的结果。

然而,与其他SOTA算法相比,它在其他2个游戏中的体现显着较低。本文没有解释这种技术不太有用的游戏的本质。分数种种RL算法的比力结论RND模型证明晰近年来在艰辛探索游戏中取得的进步。

该模型的创新部门,即牢固和目的网络,由于其简朴性(实现和盘算)以及与种种计谋算法协同事情的能力而很有前景。另一方面,另有很长的路要走- 没有模型可以统治它们,差别游戏的体现也各不相同。此外,虽然RNN可能对保持更长的配景有所资助,但全球探索仍然是一个挑战。

需要长时间联系的场景,例如使用在第一个房间找到的钥匙打开最后一扇门仍然无法到达。


本文关键词:小,议论文,随机,网络,蒸馏,探索,RND,的,好奇心,环球app

本文来源:环球体育官方登录入口-www.nskbearing.cn