Uber找到神经网络再训练的新出路——区分可塑性

2018年04月11日由浅浅发表 813164 0

神经网络作为Uber机器学习系统的基础，在解决复杂问题——包括图片识别、语言理解和人机博弈方面均表现出色。不过这些神经网络通过梯度下降法到达一个停止点，逐步基于其多重训练中的表现来调整网络连接，而一旦训练结束，网络被固化，连接无法再改变，阻碍了之后的重训（仍需许多例子），也就是说，这一网络在训练结束后便终止了学习。

相比之下，生物大脑具有可塑性，神经元间的连接能够不断适应变化的生活，使生物能够迅速高效从持续的经验中学习。大脑不同区域和连接的可塑性水平不同，正是上万年进化过程的选择，让生物在有限的生命中能够高效学习。这种持续学习的能力已足够使生物适应变化莫测的环境，很少需要额外的资料。人类可以迅速记住从未见过的图样，也可以在全新的环境中通过少量的训练迅速习得新的习惯。

为了使智能人工代理也能够拥有相似的能力，Uber AI实验室开发了新的方法——区分可塑性（Differentiable Plasticity），通过梯度下降法训练可塑性连接行为，使先前练成的神经网络适应新的情境。可塑的神经网络在进化计算技术的研究中是长久的领域，这样的方法首次显示出通过梯度下降法能够自行调节可塑性的可能。基于梯度的方法出现在许多近期AI近期的重大突破中，包括图像识别、机器翻译、Atari游戏以及Go playing，可塑性神经网络能够经得起梯度下降法的检验，从而使两种处理都更为有效。

区分可塑性如何起作用

每个连接都有初始重量，同时也有决定连接可塑性多少的系数。更确切来说，代表神经元的i和其激活函数y_i要进行如下计算：

Uber找到神经网络再训练的新出路——区分可塑性

除了输入权值有固定分量（图中绿色部分）以及可塑性分量（图中红色部分），第一个方程式对于神经网络单元是典型的激活函数运算。可塑性分量中H_i,j根据输入和输出自变化（正如第二个方程式所指定的，要注意其他公式化也是可能的，就像这篇文章讨论的那样。）

在最初训练期，梯度下降法调整了结构参数w_i,j和α_i,j，它们决定着固定和可塑性分量的大小。因此，在最初的训练后，智能人工代理可以自动学习之后的经验，因为每个连接的可塑性成分由神经活动性充分塑造以储存信息，引起某些学习方法的联想。

证明区分可塑性

为了证明区分可塑性的潜力，研究者选取了几种有挑战性的任务，需要对随机的刺激物进行快速学习。

在图像重建任务中（如图1），神经网络识记了一组从未出现过的自然图片；之后又展示了其中一张图片，不过图片只有一半，神经网络必须从记忆中补全失去的那一半。区分可塑性能够有效训练大的神经网络，可以用无数的参数来完成这个任务。重要的是无可塑性的连接的传统神经网络（包括最先进的可反复建构的LSTMs）无法完成这项任务，甚至需要更多的时间来学习已经精简很多的任务。

图1：图片补全任务（每一行都是单独的材料）

在展示了三幅图片后，向神经网络出示不全的图片，并让其根据记忆补全。无可塑性的神经网络（包括LSTMs）无法完成任务。

图片来源：CIFAR10数据库

研究者还训练可塑性神经网络完成Omniglot任务（即标准学会学习任务），需要学习从每个单独的展示中识记一系列全新的手写符号。另外，这一方法也可以应用到强化学习问题中：在迷宫探索任务中，人工代理必须发现、识记并重复迷宫中每个放置了奖励的位置（如图2），结果可塑性神经网络远胜过无可塑性神经网络。这种方法下，简单为神经网络增加可塑性系数需要真正的全新方法——有时也可是现有最佳的方法，去解决大量需要从持续经验中学习的问题。

图2：迷宫探索任务

人工代理（黄色方形）因尽可能多地正确找到奖励位置（绿色方形）受到奖励，每次当代理找到奖励位置后会被传送到随机位置。上图中，代理的走向基本上是随机的。下图中，在30万次探索后，代理学会记忆奖励位置并能够辨明方向找到位置。

展望

实际上区分可塑性提供了一种新型的生物启发式方法，可用于解决“学会学习”或“元学习”的经典问题。当然，这种方法也相当灵活，用梯度下降法处理一个基本的结构单元（可塑性连接），可以通过多种强有力的方式加以利用，如同上文中多样任务的例子那样。

此外，这种方法打开了多种全新研究的大门。例如，我们能不能像LSTMs那样，通过使改变连接可塑性改善现存的复杂神经网络结构？如果神经网络自身可以控制连接可塑性，正如生物大脑通过神经调质那样调控，又该怎样做呢？可塑性是否能够比单纯重现*提供更高效的记忆。

*重现在神经元活动过程中储存信息，而可塑性是在更多的神经连接中储存。

标签：

机器学习神经网络 Uber优步

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇所有机器学习爱好者的福音!推出期待已久的Golem测试版了

下一篇如何使虚拟特技人模仿的动作流畅自然？Berkeley实验室利用RSI结合ET技术另辟蹊径

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术