自动驾驶汽车 机器人 识别AI'盲点'

麻省理工学院和微软研究人员开发的一种新型模型确定了自主系统从训练样本中“学习”的实例,这些实例与现实世界中实际发生的事实不符。工程师可以使用该模型来提高人工智能系统的安全性,例如无人驾驶车辆和自动机器人。

例如,为无人驾驶汽车提供动力的AI系统在虚拟模拟中被广泛训练,以便为几乎所有在路上的事件准备车辆。但有时汽车会在现实世界中出现意外错误,因为事件发生应该但不会改变汽车的行为。

考虑一辆未经过培训的无人驾驶汽车,更重要的是没有必要的传感器,以区分截然不同的场景,例如大型白色轿车和道路上带有红色闪光灯的救护车。如果汽车在高速公路上行驶,救护车在警报器上轻弹,那么汽车可能不会知道减速和停车,因为它并不认为救护车与大型白色轿车不同。

在去年的Autonomous Agents和Multiagent Systems会议以及即将召开的人工智能促进会议上发表的一篇论文中,研究人员描述了一个利用人类输入来揭示这些训练“盲点”的模型。

与传统方法一样,研究人员通过模拟训练设置了AI系统。但是,当人们在现实世界中行动时,人类密切监视系统的行为,在系统制造或即将发生任何错误时提供反馈。然后,研究人员将训练数据与人体反馈数据相结合,并使用机器学习技术生成一个模型,该模型可以精确定位系统最有可能需要更多关于如何正确行动的信息。

研究人员使用视频游戏验证了他们的方法,模拟人员校正了屏幕角色的学习路径。但下一步是将该模型与传统的自动驾驶汽车和机器人培训和测试方法相结合,并提供人工反馈。

“这个模型帮助自治系统更好地了解他们不知道的东西,”第一作者Ramya Ramakrishnan说,他是计算机科学和人工智能实验室的研究生。“很多时候,当部署这些系统时,他们训练有素的模拟与现实世界的设置不符[并且]他们可能会犯错误,例如发生事故。这个想法是利用人来弥合模拟和模拟之间的差距。现实世界,以安全的方式,所以我们可以减少一些错误。“

这两篇论文的共同作者是:Julie Shah,航空航天系副教授,CSAIL交互式机器人小组负责人;来自微软研究院的Ece Kamar,Debadeepta Dey和Eric Horvitz。Besmira Nushi是即将发表的论文的另一位合着者。

采取反馈

一些传统的训练方法确实在实际测试运行期间提供人工反馈,但仅用于更新系统的操作。这些方法不能识别盲点,这对于在现实世界中更安全的执行可能是有用的。

研究人员的方法首先通过模拟训练建立人工智能系统,在那里它将产生一个“政策”,基本上将每种情况都映射到模拟中可以采取的最佳行动。然后,系统将部署在现实世界中,人类在系统行为不可接受的区域提供错误信号。

人类可以通过多种方式提供数据,例如通过“演示”和“更正”。在示威中,人类在现实世界中行动,而系统观察并比较人类的行为与在那种情况下所做的事情。例如,对于无人驾驶汽车,如果计划行为偏离人的行为,人类将手动控制汽车,同时系统产生信号。与人类行为的匹配和不匹配提供了系统可能以可接受或不可接受的方式行动的嘈杂指示。

或者,人类可以提供校正,人类监视系统在现实世界中的行为。当自动驾驶汽车沿着其计划的路线行驶时,人可以坐在驾驶座上。如果汽车的行为是正确的,人类什么都不做。然而,如果汽车的动作是不正确的,那么人可能会接收到车轮,该车轮发出一个信号,表明系统在该特定情况下没有采取不可接受的行为。

一旦编译了来自人的反馈数据,系统基本上具有情况列表,并且对于每种情况,多个标签说明其行为是可接受的或不可接受的。单一情况可以接收许多不同的信号,因为系统将许多情况视为相同。例如,自动驾驶汽车可能会在大型汽车旁边多次巡航而不会减速和拉动。但是,在一个例子中,一辆救护车,与系统看起来完全相同,巡航。自动驾驶汽车不会停车并接收反馈信号,系统采取了不可接受的行动。

“在这一点上,系统已经被人类发出了多个相互矛盾的信号:一些人旁边有一辆大型汽车,而且一切都很好,还有一辆救护车在同一个位置,但那不是很好系统稍微注意到它做错了什么,但它不知道为什么,“Ramakrishnan说。“因为代理人正在获得所有这些矛盾的信号,下一步就是汇编信息,问我'在这种情况下,我收到这些混合信号时,我有多大可能犯错?'”

智能聚合

最终目标是将这些模棱两可的情况标记为盲点。但这不仅仅是为每种情况简单地计算可接受和不可接受的行动。例如,如果系统在救护车情况下执行了9次中的9次正确动作,那么简单的多数投票就会将这种情况标记为安全。

“但由于不可接受的行为远比可接受的行动少得多,该系统最终会学会将所有情况预测为安全,这可能非常危险,”Ramakrishnan说。

为此,研究人员使用了Dawid-Skene算法,这是一种通常用于众包处理标签噪声的机器学习方法。该算法将一系列情况作为输入,每个情况都有一组嘈杂的“可接受”和“不可接受”的标签。然后,它聚合所有数据,并使用一些概率计算来识别预测盲点标签中的模式和预测安全情况的模式。使用该信息,它为每种情况输出单个聚合的“安全”或“盲点”标签以及该标签中的置信水平。值得注意的是,该算法可以在例如90%的时间内可接受地执行的情况下学习,这种情况仍然模糊不清以至于值得“盲点”。

最后,该算法产生一种“热图”,其中来自系统原始训练的每种情况被指定为从低到高的概率,成为系统的盲点。

“当系统部署到现实世界中时,它可以使用这种学习模型更谨慎和智能地行动。如果学习模型预测状态是高概率的盲点,系统可以查询人类可接受的行动,允许更安全的执行,“Ramakrishnan说。