首页 >> 要闻 >

优步研究人员调查人工智能是否符合伦理

2022-04-13 19:16:01 来源：用户：

AI能符合伦理吗？这是优步研究人员必须在预印本论文中回答的棘手问题，该论文试图将道德哲学的见解转化为强化学习领域——机器学习，以及软件代理应该如何在环境中采取行动以最大化其功能。

虽然强化学习是一种强大的技术，但它必须局限于现实和非结构化的环境中，这样它才不会执行不令人满意的任务。(例如，机器人吸尘器不应打碎花瓶或伤害家猫。)强化学习和训练的机器人在伤害或帮助他人的范围内具有道德意义。意识到这一点，优步团队考虑了代理人不应该遵循单一伦理理论(如功利主义、义务论和美德伦理学)的可能性，而代理人不应该确定哪种理论适合给定的环境。

研究人员推测，“机器学习可能在其中发挥重要作用”。“可以训练分类员识别与道德相关的事件和情况，如人身伤害或其潜在性、对人和动物的情绪反应以及违反法律或规范的行为。”

根据合著者，道德理论的相关特征是它对某些行为及其在环境中的结果的偏好。他们给理论赋予一定的可信度，以表示代理或代理设计者对理论的信任程度，他们使用标准框架(markov决策过程)的修改版本，其中代理可以处于任意数量的状态，并采取行动实现其他状态。

研究者建议伦理理论可以按照比例原则来对待。在这种理论下，理论的影响力只取决于其可信度，而与最终决策中其选择价值的具体细节不成正比。基于此，他们设计了几个系统，代理可以使用这些系统来选择理论，然后在四个相关的网格世界环境中进行比较，以了解各种系统之间的差异。

所有的环境都处理推车问题，其中一个人(或代理人)被迫决定是牺牲几条生命还是一条生命。在网格世界中，手推车通常在每个时间步长都向右移动。如果代理人在到达轨道上的岔道时站在转换鞋上，小车将被重定向并撞击旁观者，造成伤害。或者，特工可以把一个大个子推到赛道上，伤害他，但要停下车。(警卫可以保护这个人，在这种情况下，代理人必须对警卫撒谎。否则，小车继续向前移动，与变量“x”代表的人发生碰撞。

研究人员认为，试图使预期选择价值最大化的行为者会在功利主义(包括所有危害)理论和义务论(只计算代理人造成的危害)之间产生不一致的结果。然而，这取决于义务论是按1还是10的比例缩放；研究人员试图调和功利主义和义务论使用的不同单位。

另一方面，依赖纳什投票技术的代理总是有可能选择信誉最高的理论。这是因为纳什投票反对股权敏感度的概念，因为随着“x”的增加，功利主义者对转换选择的偏好得到了更大的考虑。纳什投了票，未能妥协——它总是忽略“切换”选项，只有在面临以下选择时才选择推大个子或者什么都不做：(1)让大车撞到大量人，(2)将大车重定向到两个人站的不同轨道，或者(3)推人。

对于总结通过Q学习(一种学习策略的算法，告诉代理在什么情况下采取什么行动)获得的偏好的代理来说，他们将遭受一种被称为控制错觉的现象。Qlearning含蓄地认为，政策采取的行动将是奖励最大化的行动，但实际上，首选的下一个行动可能会根据不同的理论而有所不同。在独轮车问题中，Q学习代理经常选择不对男人撒谎，因为代理错误地认为他可以在下一步将手推给男人。

实验结果似乎暗示了一系列可能的算法，涵盖了道德不确定性下决策竞争选择之间的权衡。研究人员怀疑，最适合给定领域的算法可能取决于理论和领域本身的特殊性，这就是为什么他们计划在更复杂的领域测试算法的道德不确定性(以及一般的机器伦理)。

除了这篇优步论文，Mobileye、Nvidia、DeepMind和OpenAI也发表了关于加强学习技术中的安全约束的工作。DeepMind最近研究了一种奖励建模的方法，该方法分两个阶段运行，适用于代理不知道不安全状态可能在哪里的环境。就OpenAI而言，它发布了SafetyGym，这是一套开发AI的工具。它尊重训练过程中的安全约束，比较算法的安全性和这些算法避免学习错误的程度。

　　免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！