专题 | 智能机器需要向新皮质学习什么 - 技术阅读

除非机器具备了

人类大脑的某些特征，

否则它们不会变得智能。

下面介绍其中的3项特征。

●■●

计算机改变了工作和游戏、交通和医药、娱乐和体育。尽管如此，这些机器仍然无法完成孩子都能完成的简单任务，例如在一个陌生的房间里穿梭或使用铅笔。●解决方案终于触手可及了，它将出现在两个主要研究方向的交叉点：大脑逆向工程和人工智能的新兴领域。在未来20年里，这两个方面的研究将结合起来，迎来智能机器的一个新纪元。●我们为什么需要了解大脑如何运转，来制造智能机器？虽然深度神经网络等机器学习技术最近取得了令人印象深刻的成果，但它们离智能、离人类的理解力和行为仍然相距甚远。拥有智能、拥有认识世界的能力、能够计划和执行的唯一实例，就是大脑。因此，我们必须了解人类智能的基本原理，并利用它们来指导我们开发真正的智能机器。

在我位于加州红木市的Numenta公司里，我们将新皮质——大脑最大的组成部分，也是负责智能的主要部分——作为研究对象。我们的目标是了解它如何运作，并确定人类认知的基本原理。近年来，我们的工作取得了长足的进步，已经确定了生物智能应该体现在未来的思维机器中的几个特点。

要理解这些原理，我们必须从生物学的基础开始。人类大脑与爬行动物的大脑相似，都有控制反射行为的脊髓、控制呼吸和心率等自主行为的脑干，以及控制情绪和基本行为的中脑。但是人类（实际上还有所有哺乳类动物）有一样东西是爬虫类动物不具有的：新皮质。

新皮质是一层褶皱很深的薄层，大约2毫米厚，如果平整摊开，和大号餐巾纸差不多大。它占人类大脑体积的75%左右。就是它让我们变得聪明。

人出生时，新皮质几乎一无所知，它通过积累经验进行学习。我们对世界的一切认识，比如开车、使用咖啡机，以及每天成千上万的交互行为，都存储在新皮质中。它学会了认识这些物体，了解它们在世界中的位置，以及它们如何行事。新皮质也会产生动作指令，所以当你做饭或编写软件时，实际上是新皮质控制着这些行为。语言也是由新皮质创造和理解的。

新皮质像整个大脑和神经系统一样，由神经元组成。因此，要了解大脑是如何运作的，需要从神经元开始。新皮质大约有300亿个神经元。典型的神经元有一个尾巴一样的轴突以及多个树状的延伸物（称为树突）。如果把神经元看成一种信号系统，轴突就相当于发射器，树突相当于接收器。沿着树突的分支分布着大约5000到1万个突触，每一个突触都与其他成千上万个神经元的突触相连。因此有超过100万亿个突触连接。

你对周围世界的体验——认出一个朋友的面孔、享受一曲音乐、手里拿着一块肥皂——都是由眼睛、耳朵和其他感觉器官输入到你的新皮质，并激活众多神经元的结果。当神经元受到刺激时，电尖峰会沿着神经元轴突流动，并通过突触传递到其他神经元。如果一个接收神经元得到足够的输入，它就可能进入兴奋状态并激活其他神经元。在新皮质的300亿个神经元中，在任一瞬间，其中的1%或2%的神经元都处于兴奋状态，这意味着在任何时间点，都有几百万个神经元处于活跃状态。当你活动并与世界互动时，活跃神经元的集合也会发生变化。你对世界的感知，即你自己所认为的意识体验，是由不断变化的活动神经元模式决定的。

新皮质主要通过形成新的突触来存储这些模式。当你再次看到以前见过的面孔和地方时，这些存储使你能够识别并回忆起它们来。例如，当你想到你朋友的面孔时，新皮质中会出现一种神经激活模式，与你真正看到朋友面孔时的相应模式类似。

值得注意的是，新皮质既复杂又简单。说它复杂，是因为它被划分成几十个区域，每个区域负责不同的认知功能。每个区域内有多个神经元层，包含几十种神经元类型，神经元以错综复杂的模式连接。

说新皮质简单，是因为每个区域的细节几乎都是相同的。随着人类的进化，逐渐演化出一种可以应用于新皮质所有功能的算法。这个通用算法的存在是令人振奋的，因为如果能弄清楚这个算法是什么，我们就可以彻底明白智能意味着什么，并把这些知识灌输到未来的机器中。

但这不是人工智能已经在做的吗？大多数人工智能不就是建立在与之类似的大脑“神经网络”上的吗？其实并非如此。虽然今天的人工智能技术参考了神经科学，但它们使用的是一种过于简化的神经元模型，不具有真正神经元的基本特征，而且，它们的连接方式并不能反映人类大脑实际的复杂结构。二者之间的差异有很多，而且非常重要。这就是为什么今天的人工智能可能擅长标记图像或识别口头语言，却不能以创造性的方式进行推理、计划和行动。

在研究新皮质如何运作方面，我们最近的进展让我们对未来思维机器的运作方式有了些新想法。我将介绍如今人工智能大都缺失却对生物智能至关重要的3个方面：重建回路学习、稀疏表示和具身化（指通过身体移动来了解世界）。

●■●

重建回路学习：大脑表现出一些卓越的学习特性。首先，我们学得很快。随意看几眼或用手指触摸几下，常常足以让我们学到新东西。第二，学习具有增量性。我们不需要再训练整个大脑或忘记以前学过的东西，就可以学习新东西。第三，大脑在不断学习。当我们在走动、规划和行动时，我们一直在学习。快速、增量和连续学习是使智能系统适应变化世界的基本要素。神经元负责学习，而使神经元成为强大学习机器的则是它的复杂性。

近年来，神经科学家们掌握了一些关于树突的重要信息。其中之一是，树突的每个分支充当一组模式检测器。事实证明，每个分支上只要有15到20个活跃突触，就能够识别大量神经元的活跃模式。因此，单个神经元可以识别数百种不同模式。其中，有些模式让神经元变得活跃，有些则改变细胞的内部状态，并预测未来活动。

神经科学家过去认为，学习仅仅是通过修改现有突触的有效性来实现的，这样当输入到达突触时，神经元细胞就可能更容易或更难被激活。然而，我们现在了解到，大多数学习是通过“重建大脑回路”而在细胞之间产生新突触的结果。每天，神经元中有高达40%的突触被新突触替换。新的突触使神经元之间出现新的连接模式，因此导致新的记忆。由于树突的分支大多是独立的，因此当神经元学习识别某一树突上的新模式时，并不会干扰其他树突已经学到的东西。

这就是为什么我们能够学习新事物而不干扰旧记忆，为什么我们每次学习新东西的时候不需要重新训练大脑。今天的神经网络没有这些属性。

智能机器不必模仿生物神经元的所有复杂性，但树突和重建回路学习所实现的相关能力是必不可少的。未来的人工智能系统将需要具备这些能力。

●■●

稀疏表示：大脑和计算机表示信息的方式很不相同。在计算机内存中，1和0的所有组合都可能是有效的，所以如果你改变一个比特，通常就会出现完全不同的含义。这大致如同把“fire”（火）中的“i”改变成“a”，使它变成一个毫不相干的词“fare”（车费）一样。这种表示方式非常脆弱。

而大脑使用的是所谓的稀疏分布表示（SDR）。之所以称其为“稀疏”，是因为在任何给定的时间，只有相对较少的神经元完全处于活跃状态。随着你移动和思考，活跃的神经元会发生变化，但比例总是很低。如果我们把每个神经元看成1比特，那么大脑会使用几千个比特（比计算机使用的8至64个多得多）表现一条信息，但在任何时刻都只有其中一小部分的值是1，其余的都是0。

假设你想用稀疏分布表示来表现“猫”的概念，你可能会使用1万个神经元，而其中只有100个是活跃的。每个活跃的神经元代表猫的某些方面，如“宠物”“毛茸茸”“爪子”。如果少数神经元死亡，或额外的一些神经元变得活跃，新的稀疏分布表示仍然能较好地表示“猫”，因为活跃的神经元大多数仍然是相同的。稀疏分布表示不脆弱，且对误差和噪声有内在的抵抗力。当我们想用硅来制造大脑时，它们应具备内在的容错能力。

我想说一下稀疏分布表示的两个属性。其一是重叠属性，能让其容易识别两个事物的含义有哪些异同之处。设想有两个稀疏分布表示，一个表示“猫”，另一个表示“鸟”。它们都具有表示“宠物”和“爪子”的相同活跃神经元，但表示“毛茸茸”的则不是它们的共同神经元。这只是一个简化的例子，说明重叠属性很重要，因为它让大脑很快弄清楚这两个事物的异同。这一属性赋予了人类概括能力，而这正是计算机所缺乏的。

其二是联合属性，它允许大脑同时表示多个想法。想象一下，我看见一只动物在灌木丛中移动，但只看了一眼，所以不能确定我看到的是什么。它可能是一只猫、一只狗或一只猴子。因为稀疏分布表示是稀疏的，而且互不干扰，所以众多神经元可以同时激活3个稀疏分布表示而不会产生困惑。神经元具有不断形成稀疏分布表示联合体的能力，因此非常善于处理不确定性。

稀疏分布表示的两种特性是大脑能够进行理解、思考和规划的关键。不接纳稀疏分布表示就无法造出智能机器。

●■●

具身化：新皮质接收来自感觉器官的输入。每当我们移动目光、四肢或身体时，感官输入都会发生变化。这种不断变化的输入是大脑认识世界的主要机制。假设我给你一个你从未见过的物体，为讨论之便，假设我给你的是订书机。你将如何认识这个新物体？或许你会绕着订书机走，从不同的角度观察它。或许你会拿起它，用手指触摸，并在手中摆弄。然后你可能试着拉起或按下它，看它的反应。通过这个互动过程，你认识了订书机的形状、感觉、外观以及作用。你做一个动作，看看输入如何变化，再做一个动作，看看输入如何再次改变，不断反复。通过动作来学习是大脑的主要学习手段。这将是所有真正智能系统的核心组成部分。

这并不是说智能机器需要一个实体，而是说它需要有能力通过移动来改变它的感知。例如，虚拟人工智能机器可以通过跟踪链接和打开文件，在网络中“移动”。它可以通过虚拟活动来了解虚拟世界的结构，就像我们走过建筑物时所做的那样。

这让我们于2016年在Numenta公司取得了重要发现。在新皮质中，感觉输入是在不同层次的区域中处理的。随着感官输入从一个层级被传递到另一个层级，更复杂的特征被提取出来，直到某一点可以识别出物体为止。深度学习网络也使用层次结构，但它们往往需要100个层次的处理才能识别一个图像，而新皮质只需要4个层次就可获得相同结果。深度学习网络还需要上百万种训练模式，而新皮质仅通过少量动作和感觉就可以认识新物体。大脑的做法与典型的人工神经网络有着本质的不同，但是大脑是怎么做的呢？

19世纪的德国科学家赫尔曼•冯•亥姆霍兹是最先给出答案的人之一。他观察到，虽然我们的眼球每秒钟都动三四次，但我们的视觉感知是稳定的。他推断，大脑必须考虑眼球是如何移动的，否则在我们眼里整个世界都好像在疯狂地跳来跳去。同样，当你触摸某物时，如果大脑只处理触觉输入，而不知道你的手指在同一时间如何移动，也会让人感到困惑。这种把动作与感觉变化相结合的原则被称为感觉运动整合。感觉运动整合在大脑中何处发生、如何发生，目前很大程度上仍然是个谜。

我们的发现是，感觉运动整合发生在新皮质的每个区域。它不是一个单独的步骤，而是所有感官处理的组成部分。感觉运动整合是新皮质“智能算法”的重要组成部分。在Numenta公司，我们有一套解释神经元如何运作的理论和模型，这个模型可以很好地映射每个新皮质区域的复杂解剖结构。

这个发现对机器智能有什么影响？想想你可能在计算机上看到的两种文件吧。一种是照相机生成的图像文件，另一个是由欧特克等程序生成的计算机辅助设计（CAD）文件。图像文件表示一组二维视觉特征。CAD文件也表示一组特征，但每个特征都对应着三维空间内的一个指定位置。CAD文件对完整的物体（而不是物体从某个角度看上去的样子）进行建模。利用CAD文件，你可以预知物体在任何角度的样子，并确定某物体如何与其他三维物体互动，而用图像文件则无法做到这些。我们发现，新皮质的每个区域都能像CAD程序那样认识物体的三维模型。身体每动一次，新皮质都会获取当前的动作指令，并将它转换成物体参考系中的位置，然后把该位置与感官输入结合起来，以认识世界中的三维模型。

事后看来，这种观察是有意义的。智能系统需要学习世界的多维模型。感觉运动整合并非只发生在大脑的几个区域，它是大脑功能的核心原理，是智能算法的一部分。智能机器也必须如此运作。

●■●

新皮质的3项基本属性——重建回路学习、稀疏分布表示、感觉运动整合——将是机器智能的基石。未来的思维机器可以忽略生物学的许多方面，却不能忽略这3个方面。毫无疑问，在神经生物学方面还会有进一步揭示认知的其他发现，它们将来也需要被纳入智能机器中，但我们可以从今天已经知道的开始。

在人工智能的早期发展阶段，批评者就摒弃了试图模仿人类大脑的想法，经常说“飞机并不会扇动翅膀”。实际上，威尔伯•莱特和奥威尔•莱特兄弟俩详细研究了鸟类。为了创造升力，他们研究了鸟翼形状并在风洞中进行了测试。对于推进力，他们采用了鸟类所不具备的解决方案：螺旋桨和电机。为了控制飞行，他们观察到鸟类在飞行转向时会倾斜翅膀，并用尾巴维持高度。所以他们也这么做了。今天，飞机仍然使用这种方法，只是我们倾斜的是机翼的尾缘。总之，莱特兄弟研究了鸟类，然后选出了哪些鸟类飞行元素是人类飞行必不可少的，而哪些是可以忽略的。这就是我们在制造思维机器过程中要做的。

考虑未来时，我会担心我们设定的目标不够高。当今计算机能对图像进行分类并识别口语问询，这是令人兴奋的，但我们离造出真正的智能机器还相距甚远。我相信制造真正的智能机器是非常重要的。人类未来的成功，甚至是人类的生存或许都取决于它。例如，如果我们要到其他行星上居住，我们将需要机器代替我们行动，进行太空旅行、修筑建筑物、开采资源，并在人类无法生存的环境中独立解决复杂的问题。在地球上，我们面临着疾病、气候和能源方面的挑战。智能机器可以帮助我们。例如，我们应该能设计出可在分子层面感知和行动的智能机器。这些机器会以你我认识电脑和订书机那样的方式，来考虑蛋白质折叠和基因表达。它们能以比人类快100万倍的速度思考和行事。这种机器可以治愈疾病，让我们的世界适宜居住。

在20世纪40年代，计算时代的先驱们意识到，未来，计算机将变得十分重要和有益于人类，并且可能改变人类社会。但他们无法准确地预测计算机将如何改变我们的生活。同样，我们可以相信，真正的智能机器将把世界变得更美好，虽然今天我们还不能准确地预测将如何改变。20年后，当我们回望时会发现，是大脑理论和机器学习的进步开创了真正的机器智能时代。

作者: Jeff Hawkins

往期推荐

查看全文

您现在的位置是：首页 > 技术阅读 > 专题 | 智能机器需要向新皮质学习什么

专题 | 智能机器需要向新皮质学习什么