首页 > 要闻 > 正文

优步研究人员调查人工智能是否符合伦理

导读 AI能符合伦理吗?这是优步研究人员必须在预印本论文中回答的棘手问题,该论文试图将道德哲学的见解转化为强化学习领域——机器学习,以及

AI能符合伦理吗?这是优步研究人员必须在预印本论文中回答的棘手问题,该论文试图将道德哲学的见解转化为强化学习领域——机器学习,以及软件代理应该如何在环境中采取行动以最大化其功能。

虽然强化学习是一种强大的技术,但它必须局限于现实和非结构化的环境中,这样它才不会执行不令人满意的任务。(例如,机器人吸尘器不应打碎花瓶或伤害家猫。)强化学习和训练的机器人在伤害或帮助他人的范围内具有道德意义。意识到这一点,优步团队考虑了代理人不应该遵循单一伦理理论(如功利主义、义务论和美德伦理学)的可能性,而代理人不应该确定哪种理论适合给定的环境。

研究人员推测,“机器学习可能在其中发挥重要作用”。“可以训练分类员识别与道德相关的事件和情况,如人身伤害或其潜在性、对人和动物的情绪反应以及违反法律或规范的行为。”

根据合著者,道德理论的相关特征是它对某些行为及其在环境中的结果的偏好。他们给理论赋予一定的可信度,以表示代理或代理设计者对理论的信任程度,他们使用标准框架(markov决策过程)的修改版本,其中代理可以处于任意数量的状态,并采取行动实现其他状态。

研究者建议伦理理论可以按照比例原则来对待。在这种理论下,理论的影响力只取决于其可信度,而与最终决策中其选择价值的具体细节不成正比。基于此,他们设计了几个系统,代理可以使用这些系统来选择理论,然后在四个相关的网格世界环境中进行比较,以了解各种系统之间的差异。

所有的环境都处理推车问题,其中一个人(或代理人)被迫决定是牺牲几条生命还是一条生命。在网格世界中,手推车通常在每个时间步长都向右移动。如果代理人在到达轨道上的岔道时站在转换鞋上,小车将被重定向并撞击旁观者,造成伤害。或者,特工可以把一个大个子推到赛道上,伤害他,但要停下车。(警卫可以保护这个人,在这种情况下,代理人必须对警卫撒谎。否则,小车继续向前移动,与变量“x”代表的人发生碰撞。

研究人员认为,试图使预期选择价值最大化的行为者会在功利主义(包括所有危害)理论和义务论(只计算代理人造成的危害)之间产生不一致的结果。然而,这取决于义务论是按1还是10的比例缩放;研究人员试图调和功利主义和义务论使用的不同单位。

另一方面,依赖纳什投票技术的代理总是有可能选择信誉最高的理论。这是因为纳什投票反对股权敏感度的概念,因为随着“x”的增加,功利主义者对转换选择的偏好得到了更大的考虑。纳什投了票,未能妥协——它总是忽略“切换”选项,只有在面临以下选择时才选择推大个子或者什么都不做:(1)让大车撞到大量人,(2)将大车重定向到两个人站的不同轨道,或者(3)推人。

对于总结通过Q学习(一种学习策略的算法,告诉代理在什么情况下采取什么行动)获得的偏好的代理来说,他们将遭受一种被称为控制错觉的现象。Qlearning含蓄地认为,政策采取的行动将是奖励最大化的行动,但实际上,首选的下一个行动可能会根据不同的理论而有所不同。在独轮车问题中,Q学习代理经常选择不对男人撒谎,因为代理错误地认为他可以在下一步将手推给男人。

实验结果似乎暗示了一系列可能的算法,涵盖了道德不确定性下决策竞争选择之间的权衡。研究人员怀疑,最适合给定领域的算法可能取决于理论和领域本身的特殊性,这就是为什么他们计划在更复杂的领域测试算法的道德不确定性(以及一般的机器伦理)。

除了这篇优步论文,Mobileye、Nvidia、DeepMind和OpenAI也发表了关于加强学习技术中的安全约束的工作。DeepMind最近研究了一种奖励建模的方法,该方法分两个阶段运行,适用于代理不知道不安全状态可能在哪里的环境。就OpenAI而言,它发布了SafetyGym,这是一套开发AI的工具。它尊重训练过程中的安全约束,比较算法的安全性和这些算法避免学习错误的程度。

免责声明:本文由用户上传,如有侵权请联系删除!

标签:

Copyright @ 2015 -2023 太行之窗 All Rights Reserved. 网站地图 | 百度地图 .