更深入、更便宜的机器学习

超强硬件将加速深度学习发展。

2016年3月，谷歌计算机全面击败了世界围棋冠军李世石，可谓人工智能历史上的一个里程碑。获胜的计算机程序由伦敦谷歌深度思维公司（DeepMind）的研究人员开发，他们使用的人工神经网络充分利用了深度学习战略，使涉及多层处理的神经网络能够进行自动配置，解决所面临的问题。

当时公众不知道的是，谷歌藏着一张王牌。谷歌用来打败李世石的计算机采用了专用硬件——被谷歌称为“张量处理单元”（TensorProcessing Unit）的计算机芯片。

围棋大战结束两个月后，谷歌硬件工程师诺姆•久皮（Norm Jouppi）公开了张量处理单元的存在。他在博客中指出，谷歌使用这些新的加速卡来装备其数据中心已经有一年多的时间了。谷歌并没有详细透露这些电路板上都有哪些元器件，但清楚的是，它代表了一种越来越流行的深度学习计算加速策略：应用专用集成电路（ASIC）。

另一种受追捧的策略（主要是微软在开发）是现场可编程门阵列（FPGA），它的优点在于，当计算要求发生变化时，可以重新配置。不过更加常见的办法一直是利用图形处理单元（GPU），它可以同时执行多种数学操作，它的最大支持者便是GPU制造商英伟达。

实际上，GPU早在2009年便已开始为人工神经网络的发展提供助力。当时，斯坦福大学的研究人员发现，这种硬件能够在合理的时间内训练深度神经网络。

威廉姆•达利（William Dally）是英伟达首席科学家，同时也在斯坦福大学带领着超大规模集成电路（VLSI）并行架构团队。“如今人人都在做深度学习。”他说，“这样的话，GPU差不多是当下表现最好的硬件。”鉴于他的职位，他说这话大概一点也不稀奇。

达利解释说，有3个方面需要考虑。第一个方面他称之为“数据中心训练”，指的是任何深度学习系统都要采取的第一步：调整神经元之间的数百万个连接，以便神经网络可执行所分配到的任务。

在制造相关硬件方面，最近被英特尔收购的Nervana Systems公司发挥着重要作用。据Nervana计算机科学家斯科特•利什曼（ScottLeishman）称，ASIC深度学习加速器Nervana Engine将在2017年年初到年中这段时间投入生产。他还指出，另一个计算密集型任务——比特币挖掘——的运行从CPU转为GPU、FPGA，最后变成了ASIC，其原因在于定制化带来的能源效率收益。“在深度学习上我也看到了同样的一面。”利什曼说。

达利说，有关深度学习硬件的第二个也是非常独特的任务是“数据中心推理”。在这里，“推理”是指在此前已经经过训练的云端人工神经网络上持续进行的运算。谷歌的神经网络每天都在进行大量这样的推理计算，以对图像进行分类、进行语言翻译、识别口头词句等。虽然不敢肯定，但谷歌的张量处理单元可能就是为执行这些计算而量身定做的。

训练和推理通常需要非常不同的技能组合。对有代表性的训练来说，计算机的计算结果必须具有相对较高的精确度，一般采用32位浮点运算。对推理来说，可以牺牲精确度以换取更快的速度或更低的能耗。“这是个比较活跃的研究领域，”利什曼说，“你能让能耗降到多低？”

虽然达利拒绝披露英伟达的具体计划，但他指出英伟达的GPU一直在发展。该公司早期的麦克斯韦架构能执行双精度（64位）和单精度（32位）操作，而现在的帕斯卡架构则能够以两倍于其单精度计算通量和效率的水平执行16位操作。因此不难想象，英伟达最终将发布可以执行8位操作的GPU，这对云端推理计算（能效是降低成本的关键）来说算是很理想了。

达利补充说，“深度学习好比一只三脚架，其第三只脚是嵌入式设备推理”，如智能手机、相机、平板电脑等。对这些应用来说，关键还在于低功耗的ASIC。智能手机已经在使用深度学习了，例如用于发现恶意软件或翻译图像中的文字等，不过在接下来的一年里，深度学习软件将得到更广泛的应用。

无人机制造商大疆已在其幻影4无人机中使用了类似于深度学习ASIC的芯片，利用一块特殊的视觉处理芯片（由位于美国加州的神经网络公司Movidius制造，该公司最近也被英特尔收购了）识别障碍物。与此同时，高通也在其骁龙820处理器中植入了特殊电路来辅助执行深度学习计算。

虽然目前业界有充足的动力来设计硬件以加速深度神经网络操作，但也存在一个巨大的风险：如果前沿技术发展足够快，用于运行昨日神经网络的芯片在面世之时就已过时了。“算法变化得太快了。”达利说，“制造这些产品的人都在努力不让自己输掉赌注。”

作者：David Schneider

查看全文

您现在的位置是：首页 > 技术阅读 > 更深入、更便宜的机器学习