Plan2Explore无需微调即可适应探索任务
在本周发表在Arxiv.org预印服务器上的一篇论文中,与谷歌、微软、脸书、卡耐基梅隆大学、多伦多大学、宾夕法尼亚大学和加州大学伯克利分校相关的研究人员提出了Plan2Explore,这是一个自我监控的计划。使用规划来解决以前未知目标的人工智能。研究人员声称,在训练过程中不需要人工监督,即使没有任何特定的任务交互,也能胜过以前的方法。
像Plan2Explore这样的自监督学习算法通过暴露数据部分之间的关系来从数据中生成标签,这与在专家标注的数据集上训练的监督学习算法不同。他们观察世界并与之互动,主要是以与测试无关的方式,就像动物可能观察的那样。图灵奖得主约舒亚本吉奥和扬勒昆认为,自我监控是人类智能的关键,Plan2Explore将其付诸实践——它学会完成新任务,而无需对这些任务进行特殊训练。
Plan2Explore探索环境,并将其经验总结成一个表示,可以并行预测数千个场景。(一个场景描述了如果代理执行一系列动作会发生什么,例如左转进入走廊,然后穿过房间。给定这个世界模型,Plan2Explore使用DeepMind设计的梦想家来推导其行为。通过预先计划行动的长期结果来预先计划行动的算法。然后,Plan2Explore接收奖励函数(这些函数描述了AI的行为),以适应各种任务,如站立、行走和跑步,与特定任务的交互为零或很少。
为了确保其计算效率,Plan2Explore量化了其各种预测的不确定性。这鼓励系统在具有高不确定性的环境中寻找区域和轨迹,然后使用Plan2Explore来训练区域和轨迹以降低预测不确定性。重复此过程,以便Plan2Explore可以根据自己的预测轨迹进行优化。
在AIagent的仿真性能基准DeepMindControlSuite中的实验中,研究人员表示Plan2Explore无需使用特定目标的信息即可实现其目标——即只使用自我监控的世界模型,与外界没有任何新的交互世界。与以往领先的探索策略相比,Plan2Explore具有更好的性能,有时它是唯一成功的无监督方法。它证明了它的世界模型可以转移到同一个环境中的多个任务。在一个例子中,一个像猎豹一样的代理向后跑,向前翻,向后翻。
“强化学习可以解决复杂的任务;然而,学习通常是针对特定任务的,采样效率仍然是一个挑战。”合著者写道。“通过提出一种能够以可扩展和数据高效的方式学习许多不同任务的有效行为的方法,我们希望这项工作构成了构建可扩展的真实世界强化学习系统的一个步骤。”
GitHub提供了Plan2Explore的代码。
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
最近收到一位患者的留言,说自己这几天总感觉肛门有下坠胀感,特别难受,上网一查,好多信息都指向癌症,这可...浏览全文>>
-
腹痛、腹泻总反复!可能是小肠、大肠在抗议。基于症状特征区分小肠疾病与大肠疾病的具体差异分析:一、核心症状...浏览全文>>
-
近日,中国中医药信息学会肛肠分会·肿瘤分会·治未病分会·河北名医学会肛肠分会·盆底与便秘分会·河北省中...浏览全文>>
-
安徽蚌埠的长安启源E07作为一款备受关注的新能源车型,其价格和配置一直是消费者热议的话题。如果你正考虑入手...浏览全文>>
-
近年来,随着新能源汽车市场的快速发展,插电式混合动力车型逐渐成为消费者关注的焦点。生活家PHEV作为一款备...浏览全文>>
-
在2025款生活家PHEV车型正式上市之前,提前了解相关费用明细对于购车者来说至关重要。这款插电式混合动力车型...浏览全文>>
-
大众途昂作为一款中大型SUV,凭借其宽敞的空间和强劲的动力配置,在市场上一直拥有不错的口碑。对于计划购买20...浏览全文>>
-
阜阳地区的长安启源Q05 2025款车型凭借其时尚的外观设计和丰富的配置,吸引了众多消费者的关注。这款车型作为...浏览全文>>
-
阜阳揽巡作为一款备受关注的中型SUV,凭借其豪华的配置和超值的价格吸引了众多消费者的目光。这款车不仅在外观...浏览全文>>
-
淮南长安启源A07自上市以来便凭借其卓越的性能和亲民的价格赢得了众多消费者的青睐。作为2025款的新车型,它在...浏览全文>>