首页快讯正文

怎么买usdt便宜(www.caibao.it):奖励随机化发现多智能体游戏中多样性战略行为,研究者提全新算法RPG

Allbet登录网址2021-03-1274

USDT自动充值接口

菜宝钱包(caibao.it)是使用TRC-20协议的Usdt第三方支付平台,Usdt收款平台、Usdt自动充提平台、usdt跑分平台。免费提供入金通道、Usdt钱包支付接口、Usdt自动充值接口、Usdt无需实名寄售回收。菜宝Usdt钱包一键生成Usdt钱包、一键调用API接口、一键无实名出售Usdt。

原题目:奖励随机化发现多智能体游戏中多样性战略行为,研究者提全新算法RPG

机械之心专栏

机械之心编辑部

在这篇论文中,研究者提出了一个在 reward-space 举行探索的新算法 RPG(Reward-Randomized Policy Gradient),而且在存在多个纳什平衡 (Nash Equilibrium, NE) 的挑战性的多智能义务中举行了实验验证,实验效果解释,RPG 的显示显著优于经典的 policy/action-space 探索的算法,而且发现了许多有趣的、人类可以明白的智能体行为战略。除此之外,论文进一步提出了 RPG 算法的扩展:行使 RR 获得的多样性战略池训练一个新的具备自顺应能力的战略。

在法国启蒙头脑家卢梭(Jean-Jacques Rousseau)的《论人类不同等起源》中,提到这样一个猎鹿(StagHunt)故事:一群猎人平静地在陷阱旁守候鹿的泛起,猎到鹿的收益较大,可以让所有猎人都吃饱,然则由于鹿十分机敏,需要人人都耐心守候。这个时刻一只兔子泛起了,兔子体型较小,一人便可以乐成捕猎,然则响应的收益也很小。

于是每一个猎人有了两个选择:继续守候鹿的泛起照样马上跳起来捕兔?若是猎人选择马上捕兔,那么他可以捕到兔,获得较小的收益;若是猎人选择继续守候鹿,若所有其他猎人也都选择了继续守候鹿,那么他们最终可以猎到鹿,获得最大收益,然则一旦有任何一个其他猎人选择马上捕兔,那么选择守候鹿的猎人只能受饿(既没有捕兔,也没有时机再猎到鹿)。

图 1:StagHunt 游戏,a>b>=d>c

我们思量 2 个猎人的情形,然后把种种情形的收益抽象出来,就引出了博弈论中异常经典的 2x2 矩阵游戏 StagHunt。如图 1 所示,每个猎人可以执行两种动作:猎鹿(Stag,缩写为 S)和捕兔(Hare,缩写为 H),若是两个猎人都选择猎鹿(S,S),可以获得最大收益 a(吃饱);若是两人都选择捕兔(H,H),获得较小收益 d(需分享兔子);若是一人猎鹿一人捕兔(S,H),那么捕兔的人获得收益 b(独自吃兔),而猎鹿的人获得最小收益 c(受饿)。这些收益情形知足巨细关系 a (吃饱)> b (独自吃兔子)>=d (两小我私人分享兔子)> c (受饿)。

图 2:PPO 在 StagHunt 游戏中的显示,其中,a=4,b=3,d=1,10 个随机种子

在这个游戏中存在两个纯战略纳什平衡(Nash Equilibrium,NE):一个是Stag NE,即两个猎人都选择守候鹿,每一个猎人都可以获得很高的回报,但这是一个风险很高的互助战略。由于一旦其中一个猎人选择不互助,该猎人自己的收益不会发生猛烈转变 -- 从最大收益 a(吃饱)变为收益 b(独自吃兔),然而,对另一名猎人来说损失却是伟大的 -- 从最大收益 a(吃饱)变为最小收益 c(受饿)。而这个损失(也就是 a-c)越大,意味着猎人选择互助的风险也就越高。另一个纳什平衡是Hare NE,即两个猎人都选择捕兔,只管每个猎人只能获得较低的回报,但这是一个守旧的战略,由于无论对方怎么选,自己都市获得一定的收益 -- 对方选猎鹿,自己获得较大收益 b(独自吃兔),对方选捕兔,自己获得较小收益 d(分享兔子)。在这个义务中,现有的强化学习算法会收敛到哪个 NE 呢?作者做了一个实验,牢靠 a=4,b=3,d=1,转变 c 的取值,从图 2 可以看出:独自猎鹿的责罚越大,现有的算法收敛到 Stag NE 的概率会越低,也就是更倾向于选择守旧的捕兔战略。这与之前的剖析是也是吻合的。

那么,若何才气让强化学习收敛到收益最优的战略呢?为领会决这个问题,来自清华大学、北京大学、UC 伯克利等机构的研究者提出了一个简朴有用的手艺,奖励随机化(Reward Randomization,RR)。差异于传统强化学习中的在状态空间(state-space)中举行探索(exploration)的方式,奖励随机化是一个在奖励空间(reward-space)举行探索的方式。这项研究已被 ICLR 2021 大会吸收为 Poster 论文。

论文地址:

https://arxiv.org/abs/2103.04564

如图 3 所示,在一个奖励设置对照极端的游戏里,强化学习通常很难探索到最优战略(左图,灰 *** 域示意可能收敛到最优解的子空间,由于奖励极端而异常狭窄);然则同样的战略在其他奖励设置的游戏中可能很容易被探索到(右图)。这就演变出论文的焦点看法:通过奖励随机化对原始游戏(StagHunt)的奖励(reward)举行扰动,将问题转化为在扰动后的游戏中寻找互助战略,然后再回到原始游戏中举行微调(fine-tune),进而找到最优战略。

图 3:奖励随机化的示意图

进一步地,论文将奖励随机化和战略梯度法(Policy Gradient,PG)相连系,提出一个在 reward-space 举行探索的新算法 RPG(Reward-Randomized Policy Gradient)。实验效果解释,RPG 的显示显著优于经典的 policy/action-space 探索的算法,而且作者还行使 RPG 发现了许多有趣的、人类可以明白的智能体行为战略。

首先,论文在 GridWorld 中举行了实验,其中有一个义务叫 Monster-Hunt(如图 4 所示),这个义务设定是这样的:图中划分用黄色和蓝色示意两个智能体(Agent),他们可以在 5*5 格子中移动,红色示意怪兽(Monster),怪兽可以在格子中随机游走,而且怪兽有一个特点是它会朝着离自己最近的智能体移动。绿色示意食物苹果(Apple),苹果不能移动。若是两个智能体同时碰着了怪兽,那么每个智能体将会获得 + 5 奖励,若是智能体单独碰着了怪兽,那么他将会受到 - 2 责罚,智能体也可以吃苹果,每个苹果将会带来 + 2 奖励。显然,在这个义务中存在两个纳什平衡,即两个智能体同时遇到怪兽(高风险,高收益)或者各自去吃苹果(低风险,低收益)。

图 4:Monster-Hunt 义务示意图

图 5:在 Monster-Hunt 义务中差异算法的性能对比

图 5 给出了 RPG 与差异算法对比的效果,这些算法包罗尺度的战略梯度法、智能体共享奖励的战略梯度法、population-based 算法和一些探索(exploration)算法,包罗 MAVEN, Count-based 和 Diayn。可以看出 RPG 在这个义务中显著优于 baseline。而且从图中可以注重到,即便 RR 阶段并没有找到最优战略,RPG 依然可以通过 fine-tune 阶段进一步提升性能,找到最优战略。那么,RPG 到底发现了哪些战略呢?除了自然的各自单独吃苹果和单独碰着 Monster,作者还发现了另外两种互助战略:图 6(a)展示的是发现的次优互助战略,游戏最先后,两个智能体会移动到 5*5 格子的统一个角落,然后合体原地不动,由于怪兽的一个特点是会朝着离自己最近的智能体移动,因此两个智能体原地不动也会一起碰着怪兽,获得较高的收益,这个互助战略看起来也十分合理,那么另有没有更优的互助战略呢?谜底是有的,图 6(b)展示的是 RPG 发现的最优战略,游戏最先后,两个智能体会首先汇合,然后合体一起朝着怪兽移动,加上怪兽也会朝着智能体移动,这就大大加速了一起碰着怪兽的速率,因而可以获得更高的收益。图 7 是最优互助战略的演示动图。

图 6:Monster-Hunt 义务中两种差异互助战略

图 7 Monster-Hunt 义务中最优互助战略演示

接下来先容在论文中首次开源的新环境 Agar.io,这也是该论文的一大孝顺。Agar.io 是一个异常盛行的在线多玩家游戏(游戏地址:http://agar.io),每个玩家可以通过鼠标控制运动偏向来吃掉比自己小的智能体(可以是食物,也可以是其他玩家)。论文只思量 2 个玩家的情形,下图(a)示意义务的示意图,同样用黄色和蓝色示意两个智能体。红色示意舆图中随机天生的食物,玩家通过吃掉食物或者其他比自己小的玩家来获得奖励(奖励巨细即是吃掉的质量),同理若是丢掉了质量也会受到相当的责罚。下图(b)示意的是玩家常见的行为,例如用过盘据(Split)提高移动速率完成捕食,盘据后的部门也可以合并(Merge)。随着智能体质量的增大,移动速率也越来越慢,因此捕猎的难度也越来越大,玩家需要互助才气获得更高的收益。然而,当两个玩家距离较近时,质量较大的玩家极有可能选择攻击对于质量较小的玩家,从而马上获得奖励,导致互助破碎。因此,对于质量较小的玩家,这种互助战略风险很高。

图7 Agar.io 义务示意图

若是你是玩家,你会选择什么战略呢?带着这个问题,看一下 RPG 发现的 7 种有趣的、人类可以明白的玩家战略。

(1)Cooperative strategy(互助战略,图 8):两个玩家互助将食物驱赶至某一区域,然后划分捕食。

,

usdt支付接口

菜宝钱包(www.caibao.it)是使用TRC-20协议的Usdt第三方支付平台,Usdt收款平台、Usdt自动充提平台、usdt跑分平台。免费提供入金通道、Usdt钱包支付接口、Usdt自动充值接口、Usdt无需实名寄售回收。菜宝Usdt钱包一键生成Usdt钱包、一键调用API接口、一键无实名出售Usdt。

,

图 8 (a)Agar.io 义务中的互助战略(Cooperate)

图 8 (b)互助演示

(2)Aggressive strategy(倾向攻击战略,图 9):两个玩家当两个玩家距离较近时,质量较大的玩家选择捕食质量较小玩家。

图 9 (a)Agar.io 义务中的攻击战略(Attack)

图 9 (b)攻击演示

(3)Non-cooperative strategy(非互助战略,图 10):两个玩家各自单独捕食。

图 10 Agar.io 义务中单独捕食战略(Non-cooperate)

图 11 Agar.io 义务中偶然攻击战略(Aggressive cooperative)

(4)Aggressive cooperative strategy(偶然攻击战略,图 11):两个玩家大部门时间选择互助,偶然也会发生攻击行为。

(5)Sacrifice strategy(献祭战略,图 12):游戏最先后,两个玩家各自捕食,一段时间后,质量较小的玩家会在舆图界限守候,将自己献祭给质量较大的玩家,由质量较大的玩家控制所有质量举行捕食。

图 12 (a)Agar.io 义务中献祭战略(Sacrifice)

图 12 (b)献祭演示

(6)Perpetual strategy(永念头战略,图 13):游戏最先后,两个玩家各自捕食,一段时间后,质量较大的玩家会在舆图界限守候,质量较小的玩家驱赶食物向质量较大玩家靠拢,然后捕食,之后质量较大的玩家会异常小心地吃掉一部门质量较小的玩家,而质量较小的玩家剩下的部门会继续出去驱赶食物。一段时间后,两个玩家会交流角色,周而复始,因此称为永念头。

图 13 (a)Agar.io 义务中永念头战略(Perpetual)

图 13 (b)永念头演示

(7)Balance strategy(平衡战略,图 14):由 RPG fine-tune 之后获得的最优战略现实上是一种在相互献祭,单独捕食和互助之间的平衡战略,从图 14 可以看出,只管 RPG 学到的战略互助行为略低,但它的收益最高。

图 14 RPG 学出了平衡战略(Balance)

论文的最后给出了 RPG 算法的扩展:行使战略随机化获得的多样性战略池训练一个新的具备自顺应能力的战略(Adaptive policy),为了验证战略的顺应性,作者在 Agar.io 种做了一个很有趣的实验:在游戏玩到一半时切换对手玩家的战略,然后与 Oracle 战略举行对比,如图 15 所示。例如,当对手玩家战略由互助型切换为竞争型,Adaptive 战略获得的奖励略低于竞争型战略,但显著高于互助型战略;当对手玩家战略由竞争型切换为互助型,Adaptive 战略获得的奖励略低于互助型战略,但显著高于竞争型战略。证实训练后的战略确实具有自顺应性。

图 15 Agar.io 义务中 Adaptive 战略与 Oracle 战略效果对比,注重,只统计切换战略后的奖励

以上就是论文的主要内容,更多详细的实验和剖析可以查看论文原文,论文的源码以及开发的 Agar.io 环境已经开源,代码指路:

https://github.com/staghuntrpg/RPG。

参考链接:

论文先容主页:

转载声明:本站发布文章及版权归原作者所有,转载本站文章请注明文章来源!

本文链接:https://www.shelfsuz.com/post/1208.html

网友评论

最新评论