脸书的RIDE鼓励人工智能代理探索他们的环境
这篇预印的论文由脸书人工智能研究所的科学家合著,描述了奖励影响驱动探索(RIDE),这是一种内在的奖励方法,鼓励人工智能驱动的代理在环境中采取行动。研究人员表示,在生成程序的世界中,它在艰巨的探索任务中表现优于最新技术,这表明它可能成为机器人吸尘器等经常在新环境中导航的设备的候选。
正如研究人员解释的那样,强化学习的目的是鼓励人们通过奖励系统完成任务,并通过反复试验学会在新环境中采取行动。但是很多有趣的环境(尤其是更接近实际问题的环境)并不能为代理人提供稳定的学习奖励,所以需要大量的剧情才能为代理人获得奖励。
然后,研究人员提出的解决方案——RIDE——敦促代理尝试对环境有很大影响的行为。
该团队通过开源工具MiniGrid在程序生成环境中评估了RIDE,在MiniGrid中,世界是一个部分可观察的网格,网格中的每个块最多包含一个离散的颜色对象(墙、门、键、球、框或目标)。此外,他们在VizDoom(基于Doom进行强化学习的AI研究平台)中分配了导航级别的任务。虽然VizDoom在外观上比MiniGrid更复杂,但它们都是具有挑战性的领域,因为从外部奖励中随机跳闸的可能性极低。
研究人员报告称,与基线算法相比,RIDE认为有些状态即使经过长时间的训练,并且在过去看到过类似的状态,或者学会了几乎完全预测一个子状态中的下一个状态,也可以被视为“新奇”或“令人惊讶”。环境因此,其内部奖励不会在培训过程中减少。代理试图区分导致新的或令人惊讶的状态的行为和没有导致新的或令人惊讶的状态的行为,并避免陷入某些状态空间。
该研究的合著者写道:“RIDE有许多理想的特征。”“它可以将特工吸引到可能影响环境的国家,即使经过长时间的训练,也可以向特工提供信号。它在概念上很简单,并且与其他内部或外部奖励以及任何深度[强化学习]算法兼容.此外,在探索程序生成环境方面,RIDE比其他探索方法更有效。”
他们会用符号信息来衡量代理人的影响力或考虑代理人行为的长期影响,从而改进RIDE未来的工作。他们还希望研究能够区分预期和意外影响类型的算法,有效约束代理安全行动,避免分心。
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
最近收到一位患者的留言,说自己这几天总感觉肛门有下坠胀感,特别难受,上网一查,好多信息都指向癌症,这可...浏览全文>>
-
腹痛、腹泻总反复!可能是小肠、大肠在抗议。基于症状特征区分小肠疾病与大肠疾病的具体差异分析:一、核心症状...浏览全文>>
-
近日,中国中医药信息学会肛肠分会·肿瘤分会·治未病分会·河北名医学会肛肠分会·盆底与便秘分会·河北省中...浏览全文>>
-
安徽蚌埠的长安启源E07作为一款备受关注的新能源车型,其价格和配置一直是消费者热议的话题。如果你正考虑入手...浏览全文>>
-
近年来,随着新能源汽车市场的快速发展,插电式混合动力车型逐渐成为消费者关注的焦点。生活家PHEV作为一款备...浏览全文>>
-
在2025款生活家PHEV车型正式上市之前,提前了解相关费用明细对于购车者来说至关重要。这款插电式混合动力车型...浏览全文>>
-
大众途昂作为一款中大型SUV,凭借其宽敞的空间和强劲的动力配置,在市场上一直拥有不错的口碑。对于计划购买20...浏览全文>>
-
阜阳地区的长安启源Q05 2025款车型凭借其时尚的外观设计和丰富的配置,吸引了众多消费者的关注。这款车型作为...浏览全文>>
-
阜阳揽巡作为一款备受关注的中型SUV,凭借其豪华的配置和超值的价格吸引了众多消费者的目光。这款车不仅在外观...浏览全文>>
-
淮南长安启源A07自上市以来便凭借其卓越的性能和亲民的价格赢得了众多消费者的青睐。作为2025款的新车型,它在...浏览全文>>