您现在的位置是：首页 > 要闻 > 正文

教机器人人类想要什么这样可好

发布时间：2022-06-25 20:58:02编辑：来源：

在电脑游戏中，在沿着轨道赛车时要进行速度优化，然后汽车将踏板推到金属上……然后继续转弯一个小圈。指示中什么都没有告诉汽车直行，所以它是即兴的。

这个例子(在计算机游戏中很有趣，但生活中却不那么有趣)就是促使斯坦福大学研究人员建立更好的方法来设定自治系统目标的例子。

计算机科学和电气工程学助理教授DorsaSadigh和她的实验室将两种为机器人设定目标的不同方法组合到一个过程中，在模拟和实际实验中，它们的表现都比单独一个部分要好。研究人员于6月24日在机器人技术：科学与系统会议上介绍了这项工作。

“我完全希望世界上会有更多的自治系统，它们将需要一些概念，什么是好是坏”，计算机科学专业的研究生AndyPalan说。纸。“至关重要的是，如果我们将来要部署这些自治系统，我们必须做到这一点。”

该团队用于向机器人提供指令的新系统(称为奖励功能)结合了演示(其中人类向机器人展示如何做)和用户偏好调查，其中用户回答了有关他们希望机器人如何表现的问题。

萨迪格说：“示威是有益的，但可能会很吵闹。另一方面，喜好最多只能提供一点信息，但更准确。”“我们的目标是充分利用两全其美，并更智能地合并来自这两个来源的数据，以更好地了解人类的首选奖励功能。”

示范与调查

在先前的工作中，Sadigh仅专注于偏好调查。这些要求人们比较场景，例如自动驾驶汽车的两条轨迹。这种方法是有效的，但可能要花多达三分钟的时间才能产生下一个问题，对于为诸如汽车之类的复杂系统创建指令仍然很慢。

为了加快速度，小组后来开发了一种同时产生多个问题的方法，可以由一个人快速连续回答，也可以分布在几个人中。与一个接一个地提出问题相比，此更新将过程加快了15到50倍。

新的组合系统从一个向机器人演示行为的人开始。这样可以为自主机器人提供大量信息，但是机器人通常很难确定演示的哪些部分很重要。人们也不总是希望机器人的行为像受过训练的人一样。

电气工程专业的研究生ErdemBiyik说：“我们不能总是进行演示，即使有可能，我们也常常不能依靠人们提供的信息。”“例如，以前的研究表明，人们希望自动驾驶汽车的主动性不如自己。”

这就是进行调查的地方，为机器人提供了一种询问方式，例如，用户是否愿意将其手臂向低处移动到地面还是向上移动到天花板。对于本研究，该小组使用了较慢的单个问题方法，但他们计划在以后的工作中整合多问题调查。

在测试中，研究小组发现，将演示和调查相结合比仅指定首选项要快，并且与仅进行演示相比，约有80%的人更喜欢使用组合系统训练机器人的行为。

萨迪格说：“这是更好地了解人们对机器人的期望或期望的一步。”“我们的工作正在使人们更轻松，更高效地进行交互和教授机器人，而我对将这项工作进一步发展感到兴奋，特别是在研究机器人与人类之间如何相互学习方面。”

标签：