DeepMind最新论文:探索智能体对齐,使AI用符合用户意图的方式解决问题

DeepMind新论文:探索智能体对齐,使AI用符合用户意图的方式解决问题DeepMind发布了新论文,概述了解决智能体对齐问题的研究方向。我们的方法依赖于奖励建模的递归应用,以符合用户意图的方式解决复杂的现实问题。

近年来,强化学习在复杂的游戏环境中取得了令人瞩目的成绩,从Atari,Go和国际象棋到Dota 2和星际争霸II,AI智能体在日益复杂的领域迅速超越了人类水平。游戏是开发和测试机器学习算法的理想平台。他们提出了具有挑战性的任务,需要一系列的认知能力来完成,反映出解决现实世界中问题所需的技能。机器学习研究人员可以在云上并行运行数千个模拟实验,生成系统学习所需的训练数据。

至关重要的是,游戏通常具有明确的目标,并且得分近似于实现该目标的进展。该分数为强化学习智能体提供了有用的奖励信号,并使我们能够快速反馈哪些算法和架构选择最有效。

智能体对齐问题

最终,AI的目标是让我们能够应对现实世界中日益复杂的挑战,使人类受益。但现实世界并没有内置的奖励机制。这带来了一些挑战,因为这些任务的性能不易定义。我们需要一种很好的方式来提供反馈并使人工智能体能够可靠地理解我们想要的东西,以帮助我们实现它。换句话说,我们希望以人类反馈的方式训练AI系统,使系统的行为与我们的意图保持一致。出于我们的目的,我们定义智能体对齐问题如下:

我们如何创建符合用户意图的智能体?

对齐问题可以在强化学习框架中构建,除了代替接收数字奖励信号,智能体可以通过允许用户将其意图传达给智能体的交互协议与用户交互。该协议可以采用多种形式:例如,用户可以提供演示,偏好,最佳动作或传达奖励功能。智能体对齐问题的解决方案之一是根据用户的意图行事的策略。

通过新论文,正面解决智能体对齐问题的研究方向。基于对AI安全问题分类的研究,以及对AI安全问题的论述,我们描绘的是如何在这些领域的进展可能会产生一个解决智能体对齐问题的方法。这为构建系统打开了大门,系统可以更好地了解如何与用户交互,从他们的反馈中学习并预测他们的偏好。

通过奖励建模进行对齐

我们研究方向的主旨是基于奖励建模:我们训练奖励模型,其中包含来自用户的反馈,以捕捉他们的意图。与此同时,训练一项强化学习策略,以最大限度地提高奖励模式的奖励。换句话说,我们把学习做什么(奖励模式)和学习怎么做(策略)分开。

DeepMind新论文:探索智能体对齐,使AI用符合用户意图的方式解决问题

奖励建模的示意图:根据用户的反馈训练奖励模型捕捉意图;这种奖励模式为受过强化学习训练的智能体提供奖励。

例如,在以前的工作中,我们教智能体执行从用户偏好的后空翻,到对象安排与目标状态的例子的形状,以从用户的喜好和专家演示玩Atari游戏。在未来,我们希望设计能够适应用户提供反馈方式的算法(例如使用自然语言)。

扩大

从长远来看,我们希望将奖励建模扩展到太复杂以致人类无法直接评估的领域。为此,我们需要提高用户评估结果的能力。我们讨论如何递归应用奖励建模:我们可以使用奖励建模来训练智能体,以帮助用户进行评估过程本身。如果评估比行为更容易,这可以让我们从简单的任务引导到越来越普遍和更复杂的任务。这可以被认为是迭代扩大(iterated amplification)的实例。

DeepMind新论文:探索智能体对齐,使AI用符合用户意图的方式解决问题

递归奖励建模的示意图:使用递归奖励建模训练的代理(右侧较小的圆圈)帮助用户评估当前正在训练的智能体(大圆)产生的结果的过程。

例如,假设我们想训练智能体来设计计算机芯片。为了评估提议的芯片设计,我们使用奖励建模训练其他“辅助”智能体,以评估芯片在仿真中的性能,计算散热,估计芯片的寿命,尝试查找安全漏洞等等。

总的来说,这些辅助代理的输出使用户能够通过协助评估所提出的芯片设计来训练芯片设计者智能体。虽然每个辅助代理都必须解决当今ML系统无法实现的非常困难的任务,但这些任务比设计芯片更容易执行:因为设计一个计算机芯片,你必须要了解每个评估任务,反之则不然。在这个意义上,递归奖励建模可以让我们“支持”我们的代理人来解决越来越难的任务,同时保持与用户意图保持一致。

研究挑战

为了将奖励建模扩展到如此复杂的问题,需要解决几个挑战。下面列出了其中五项挑战,并在文中进行了更深入的描述,以及解决这些挑战的方法。

DeepMind新论文:探索智能体对齐,使AI用符合用户意图的方式解决问题

我们期望在扩大奖励建模时遇到的挑战(左)和有前景的解决方法(右)。

这将我们带到了智能体对齐的最后一个重要组成部分:在现实世界中部署智能体时,我们需要向用户提供证据,证明我们的代理确实已经充分对齐。本文讨论了五种不同的研究途径,可以帮助增加对智能体的信任:设计选择,测试,可解释性,形式验证和理论保证。一个雄心勃勃的目标是制作安全证书:可用于证明负责任的技术开发的工件,并使用户有信心依靠受过训练的智能体。

展望

虽然我们认为递归奖励建模是训练协调智能体的一个非常有前景的方向,但我们目前还不知道它的扩展程度如何。幸运的是,还有一些其他研究方向可以并行追求智能体对齐:

  • 模仿学习
  • 短视强化学习
  • 逆强化学习
  • 合作逆强化学习
  • 迭代扩大
  • 辩论
  • 智能体基金会

本文进一步探讨了它们的相似与不同。

正如对主动输入的计算机视觉系统的鲁棒性进行主动研究对于当今的ML应用而言至关重要,因此对齐研究对于在复杂的现实领域中部署ML系统也是关键。我们有理由保持乐观:虽然我们希望在扩大奖励建模时面临挑战,但这些挑战是我们可以取得进展的具体技术研究问题。从这个意义上讲,我们的研究方向已经准备就绪,可以对深层强化学习智能体进行实证研究。

论文:arxiv.org/abs/1811.07871

本文为ATYUN(www.atyun.com)编译作品,ATYUN专注人工智能
请扫码或微信搜索ATYUN订阅号及时获取最新内容

发表评论