除非机器具备了
人类大脑的某些特征,
否则它们不会变得智能。
下面介绍其中的3项特征。
●■●
计算机改变了工作和游戏、交通和医药、娱乐和体育。尽管如此,这些机器仍然无法完成孩子都能完成的简单任务,例如在一个陌生的房间里穿梭或使用铅笔。●解决方案终于触手可及了,它将出现在两个主要研究方向的交叉点:大脑逆向工程和人工智能的新兴领域。在未来20年里,这两个方面的研究将结合起来,迎来智能机器的一个新纪元。●我们为什么需要了解大脑如何运转,来制造智能机器?虽然深度神经网络等机器学习技术最近取得了令人印象深刻的成果,但它们离智能、离人类的理解力和行为仍然相距甚远。拥有智能、拥有认识世界的能力、能够计划和执行的唯一实例,就是大脑。因此,我们必须了解人类智能的基本原理,并利用它们来指导我们开发真正的智能机器。
在我位于加州红木市的Numenta公司里,我们将新皮质——大脑最大的组成部分,也是负责智能的主要部分——作为研究对象。我们的目标是了解它如何运作,并确定人类认知的基本原理。近年来,我们的工作取得了长足的进步,已经确定了生物智能应该体现在未来的思维机器中的几个特点。
要理解这些原理,我们必须从生物学的基础开始。人类大脑与爬行动物的大脑相似,都有控制反射行为的脊髓、控制呼吸和心率等自主行为的脑干,以及控制情绪和基本行为的中脑。但是人类(实际上还有所有哺乳类动物)有一样东西是爬虫类动物不具有的:新皮质。
新皮质是一层褶皱很深的薄层,大约2毫米厚,如果平整摊开,和大号餐巾纸差不多大。它占人类大脑体积的75%左右。就是它让我们变得聪明。
人出生时,新皮质几乎一无所知,它通过积累经验进行学习。我们对世界的一切认识,比如开车、使用咖啡机,以及每天成千上万的交互行为,都存储在新皮质中。它学会了认识这些物体,了解它们在世界中的位置,以及它们如何行事。新皮质也会产生动作指令,所以当你做饭或编写软件时,实际上是新皮质控制着这些行为。语言也是由新皮质创造和理解的。
新皮质像整个大脑和神经系统一样,由神经元组成。因此,要了解大脑是如何运作的,需要从神经元开始。新皮质大约有300亿个神经元。典型的神经元有一个尾巴一样的轴突以及多个树状的延伸物(称为树突)。如果把神经元看成一种信号系统,轴突就相当于发射器,树突相当于接收器。沿着树突的分支分布着大约5000到1万个突触,每一个突触都与其他成千上万个神经元的突触相连。因此有超过100万亿个突触连接。
你对周围世界的体验——认出一个朋友的面孔、享受一曲音乐、手里拿着一块肥皂——都是由眼睛、耳朵和其他感觉器官输入到你的新皮质,并激活众多神经元的结果。当神经元受到刺激时,电尖峰会沿着神经元轴突流动,并通过突触传递到其他神经元。如果一个接收神经元得到足够的输入,它就可能进入兴奋状态并激活其他神经元。在新皮质的300亿个神经元中,在任一瞬间,其中的1%或2%的神经元都处于兴奋状态,这意味着在任何时间点,都有几百万个神经元处于活跃状态。当你活动并与世界互动时,活跃神经元的集合也会发生变化。你对世界的感知,即你自己所认为的意识体验,是由不断变化的活动神经元模式决定的。
新皮质主要通过形成新的突触来存储这些模式。当你再次看到以前见过的面孔和地方时,这些存储使你能够识别并回忆起它们来。例如,当你想到你朋友的面孔时,新皮质中会出现一种神经激活模式,与你真正看到朋友面孔时的相应模式类似。
值得注意的是,新皮质既复杂又简单。说它复杂,是因为它被划分成几十个区域,每个区域负责不同的认知功能。每个区域内有多个神经元层,包含几十种神经元类型,神经元以错综复杂的模式连接。
说新皮质简单,是因为每个区域的细节几乎都是相同的。随着人类的进化,逐渐演化出一种可以应用于新皮质所有功能的算法。这个通用算法的存在是令人振奋的,因为如果能弄清楚这个算法是什么,我们就可以彻底明白智能意味着什么,并把这些知识灌输到未来的机器中。
但这不是人工智能已经在做的吗?大多数人工智能不就是建立在与之类似的大脑“神经网络”上的吗?其实并非如此。虽然今天的人工智能技术参考了神经科学,但它们使用的是一种过于简化的神经元模型,不具有真正神经元的基本特征,而且,它们的连接方式并不能反映人类大脑实际的复杂结构。二者之间的差异有很多,而且非常重要。这就是为什么今天的人工智能可能擅长标记图像或识别口头语言,却不能以创造性的方式进行推理、计划和行动。
在研究新皮质如何运作方面,我们最近的进展让我们对未来思维机器的运作方式有了些新想法。我将介绍如今人工智能大都缺失却对生物智能至关重要的3个方面:重建回路学习、稀疏表示和具身化(指通过身体移动来了解世界)。
●■●
重建回路学习:大脑表现出一些卓越的学习特性。首先,我们学得很快。随意看几眼或用手指触摸几下,常常足以让我们学到新东西。第二,学习具有增量性。我们不需要再训练整个大脑或忘记以前学过的东西,就可以学习新东西。第三,大脑在不断学习。当我们在走动、规划和行动时,我们一直在学习。快速、增量和连续学习是使智能系统适应变化世界的基本要素。神经元负责学习,而使神经元成为强大学习机器的则是它的复杂性。
近年来,神经科学家们掌握了一些关于树突的重要信息。其中之一是,树突的每个分支充当一组模式检测器。事实证明,每个分支上只要有15到20个活跃突触,就能够识别大量神经元的活跃模式。因此,单个神经元可以识别数百种不同模式。其中,有些模式让神经元变得活跃,有些则改变细胞的内部状态,并预测未来活动。
神经科学家过去认为,学习仅仅是通过修改现有突触的有效性来实现的,这样当输入到达突触时,神经元细胞就可能更容易或更难被激活。然而,我们现在了解到,大多数学习是通过“重建大脑回路”而在细胞之间产生新突触的结果。每天,神经元中有高达40%的突触被新突触替换。新的突触使神经元之间出现新的连接模式,因此导致新的记忆。由于树突的分支大多是独立的,因此当神经元学习识别某一树突上的新模式时,并不会干扰其他树突已经学到的东西。
这就是为什么我们能够学习新事物而不干扰旧记忆,为什么我们每次学习新东西的时候不需要重新训练大脑。今天的神经网络没有这些属性。
智能机器不必模仿生物神经元的所有复杂性,但树突和重建回路学习所实现的相关能力是必不可少的。未来的人工智能系统将需要具备这些能力。
●■●
稀疏表示:大脑和计算机表示信息的方式很不相同。在计算机内存中,1和0的所有组合都可能是有效的,所以如果你改变一个比特,通常就会出现完全不同的含义。这大致如同把“fire”(火)中的“i”改变成“a”,使它变成一个毫不相干的词“fare”(车费)一样。这种表示方式非常脆弱。
而大脑使用的是所谓的稀疏分布表示(SDR)。之所以称其为“稀疏”,是因为在任何给定的时间,只有相对较少的神经元完全处于活跃状态。随着你移动和思考,活跃的神经元会发生变化,但比例总是很低。如果我们把每个神经元看成1比特,那么大脑会使用几千个比特(比计算机使用的8至64个多得多)表现一条信息,但在任何时刻都只有其中一小部分的值是1,其余的都是0。
假设你想用稀疏分布表示来表现“猫”的概念,你可能会使用1万个神经元,而其中只有100个是活跃的。每个活跃的神经元代表猫的某些方面,如“宠物”“毛茸茸”“爪子”。如果少数神经元死亡,或额外的一些神经元变得活跃,新的稀疏分布表示仍然能较好地表示“猫”,因为活跃的神经元大多数仍然是相同的。稀疏分布表示不脆弱,且对误差和噪声有内在的抵抗力。当我们想用硅来制造大脑时,它们应具备内在的容错能力。
我想说一下稀疏分布表示的两个属性。其一是重叠属性,能让其容易识别两个事物的含义有哪些异同之处。设想有两个稀疏分布表示,一个表示“猫”,另一个表示“鸟”。它们都具有表示“宠物”和“爪子”的相同活跃神经元,但表示“毛茸茸”的则不是它们的共同神经元。这只是一个简化的例子,说明重叠属性很重要,因为它让大脑很快弄清楚这两个事物的异同。这一属性赋予了人类概括能力,而这正是计算机所缺乏的。
其二是联合属性,它允许大脑同时表示多个想法。想象一下,我看见一只动物在灌木丛中移动,但只看了一眼,所以不能确定我看到的是什么。它可能是一只猫、一只狗或一只猴子。因为稀疏分布表示是稀疏的,而且互不干扰,所以众多神经元可以同时激活3个稀疏分布表示而不会产生困惑。神经元具有不断形成稀疏分布表示联合体的能力,因此非常善于处理不确定性。
稀疏分布表示的两种特性是大脑能够进行理解、思考和规划的关键。不接纳稀疏分布表示就无法造出智能机器。
●■●
具身化:新皮质接收来自感觉器官的输入。每当我们移动目光、四肢或身体时,感官输入都会发生变化。这种不断变化的输入是大脑认识世界的主要机制。假设我给你一个你从未见过的物体,为讨论之便,假设我给你的是订书机。你将如何认识这个新物体?或许你会绕着订书机走,从不同的角度观察它。或许你会拿起它,用手指触摸,并在手中摆弄。然后你可能试着拉起或按下它,看它的反应。通过这个互动过程,你认识了订书机的形状、感觉、外观以及作用。你做一个动作,看看输入如何变化,再做一个动作,看看输入如何再次改变,不断反复。通过动作来学习是大脑的主要学习手段。这将是所有真正智能系统的核心组成部分。
这并不是说智能机器需要一个实体,而是说它需要有能力通过移动来改变它的感知。例如,虚拟人工智能机器可以通过跟踪链接和打开文件,在网络中“移动”。它可以通过虚拟活动来了解虚拟世界的结构,就像我们走过建筑物时所做的那样。
这让我们于2016年在Numenta公司取得了重要发现。在新皮质中,感觉输入是在不同层次的区域中处理的。随着感官输入从一个层级被传递到另一个层级,更复杂的特征被提取出来,直到某一点可以识别出物体为止。深度学习网络也使用层次结构,但它们往往需要100个层次的处理才能识别一个图像,而新皮质只需要4个层次就可获得相同结果。深度学习网络还需要上百万种训练模式,而新皮质仅通过少量动作和感觉就可以认识新物体。大脑的做法与典型的人工神经网络有着本质的不同,但是大脑是怎么做的呢?
19世纪的德国科学家赫尔曼•冯•亥姆霍兹是最先给出答案的人之一。他观察到,虽然我们的眼球每秒钟都动三四次,但我们的视觉感知是稳定的。他推断,大脑必须考虑眼球是如何移动的,否则在我们眼里整个世界都好像在疯狂地跳来跳去。同样,当你触摸某物时,如果大脑只处理触觉输入,而不知道你的手指在同一时间如何移动,也会让人感到困惑。这种把动作与感觉变化相结合的原则被称为感觉运动整合。感觉运动整合在大脑中何处发生、如何发生,目前很大程度上仍然是个谜。
我们的发现是,感觉运动整合发生在新皮质的每个区域。它不是一个单独的步骤,而是所有感官处理的组成部分。感觉运动整合是新皮质“智能算法”的重要组成部分。在Numenta公司,我们有一套解释神经元如何运作的理论和模型,这个模型可以很好地映射每个新皮质区域的复杂解剖结构。
这个发现对机器智能有什么影响?想想你可能在计算机上看到的两种文件吧。一种是照相机生成的图像文件,另一个是由欧特克等程序生成的计算机辅助设计(CAD)文件。图像文件表示一组二维视觉特征。CAD文件也表示一组特征,但每个特征都对应着三维空间内的一个指定位置。CAD文件对完整的物体(而不是物体从某个角度看上去的样子)进行建模。利用CAD文件,你可以预知物体在任何角度的样子,并确定某物体如何与其他三维物体互动,而用图像文件则无法做到这些。我们发现,新皮质的每个区域都能像CAD程序那样认识物体的三维模型。身体每动一次,新皮质都会获取当前的动作指令,并将它转换成物体参考系中的位置,然后把该位置与感官输入结合起来,以认识世界中的三维模型。
事后看来,这种观察是有意义的。智能系统需要学习世界的多维模型。感觉运动整合并非只发生在大脑的几个区域,它是大脑功能的核心原理,是智能算法的一部分。智能机器也必须如此运作。
●■●
新皮质的3项基本属性——重建回路学习、稀疏分布表示、感觉运动整合——将是机器智能的基石。未来的思维机器可以忽略生物学的许多方面,却不能忽略这3个方面。毫无疑问,在神经生物学方面还会有进一步揭示认知的其他发现,它们将来也需要被纳入智能机器中,但我们可以从今天已经知道的开始。
在人工智能的早期发展阶段,批评者就摒弃了试图模仿人类大脑的想法,经常说“飞机并不会扇动翅膀”。实际上,威尔伯•莱特和奥威尔•莱特兄弟俩详细研究了鸟类。为了创造升力,他们研究了鸟翼形状并在风洞中进行了测试。对于推进力,他们采用了鸟类所不具备的解决方案:螺旋桨和电机。为了控制飞行,他们观察到鸟类在飞行转向时会倾斜翅膀,并用尾巴维持高度。所以他们也这么做了。今天,飞机仍然使用这种方法,只是我们倾斜的是机翼的尾缘。总之,莱特兄弟研究了鸟类,然后选出了哪些鸟类飞行元素是人类飞行必不可少的,而哪些是可以忽略的。这就是我们在制造思维机器过程中要做的。
考虑未来时,我会担心我们设定的目标不够高。当今计算机能对图像进行分类并识别口语问询,这是令人兴奋的,但我们离造出真正的智能机器还相距甚远。我相信制造真正的智能机器是非常重要的。人类未来的成功,甚至是人类的生存或许都取决于它。例如,如果我们要到其他行星上居住,我们将需要机器代替我们行动,进行太空旅行、修筑建筑物、开采资源,并在人类无法生存的环境中独立解决复杂的问题。在地球上,我们面临着疾病、气候和能源方面的挑战。智能机器可以帮助我们。例如,我们应该能设计出可在分子层面感知和行动的智能机器。这些机器会以你我认识电脑和订书机那样的方式,来考虑蛋白质折叠和基因表达。它们能以比人类快100万倍的速度思考和行事。这种机器可以治愈疾病,让我们的世界适宜居住。
在20世纪40年代,计算时代的先驱们意识到,未来,计算机将变得十分重要和有益于人类,并且可能改变人类社会。但他们无法准确地预测计算机将如何改变我们的生活。同样,我们可以相信,真正的智能机器将把世界变得更美好,虽然今天我们还不能准确地预测将如何改变。20年后,当我们回望时会发现,是大脑理论和机器学习的进步开创了真正的机器智能时代。
作者: Jeff Hawkins
往期推荐