人工智能与清华天机芯片

转摘自

这篇名为《面向通用人工智能的混合天机芯片架构》(Towards artificial general intelligence with hybrid Tianjic chip architecture)的论文展示了一辆由新型人工智能芯片驱动的自动驾驶自行车。试验中,无人自行车不仅可以识别语音指令、自动控制平衡,还能对前方行人进行探测和跟踪,并自动避开障碍。

新型芯片结合了类脑计算和基于计算机科学的人工智能——这种融合技术有望提升各类系统的能力,最终实现通用人工智能。作为人工智能的终极目标,人们对于“通用人工智能”的定义通常是:一种可以执行人类能够完成的所有任务的 AI。

发展通用人工智能的方法

  在“天机”的论文中,作者介绍了芯片的设计思路以及可以实现的通用化智能。目前,发展通用人工智能(AGI)通常有两种方法:神经科学导向计算机科学导向。由于两种方法在公式和编码方式上存在根本差异,它们依赖于不同且不兼容的平台,阻碍了 AGI 的发展。因此,我们亟需一个既支持计算机科学导向人工智能网络又支持神经科学导向模型的通用算法和平台。

1

图 1:促进 AGI 发展的混合方法。该混合方法结合了面向神经科学和面向计算机科学的方法的优势(如左图所示),从而开发出具有人类大脑和主流机器学习算法广泛特征的跨范式计算平台。

神经科学导向的 AGI 方法试图密切模拟大脑皮层,它基于对记忆和计算之间紧密互动的观察、丰富的时空动态、基于脉冲的编码方案和各种学习规则的研究,典型的模型包括 脉冲神经网络(SNN)。相比之下,计算机科学导向的 AGI 方法主要涉及在计算机上执行的显式算法。在这些算法中,目前流行的非脉冲人工神经网络(ANN) 在处理诸如图像分类、语音识别、语言处理和游戏等特定任务方面取得了长足的进展。

虽然这两种方法都可以在数据丰富的专门领域解决子问题,但是由于许多系统存在不确定或不完整的信息,解决一些复杂的动态问题仍然很困难。为了进一步提高实现 AGI 所需的智能, 一个趋势是将更多生物启发模型或算法纳入主流的人工神经网络中,从而使这两种方法之间的互通更加明确。

鉴于目前机器学习和神经科学的进展,AGI 系统至少应该具备以下特征:

  1. 首先,支持能够表示丰富时空关系的庞大而复杂的神经网络

  2. 第二,支持分层、多粒度和多域网络拓扑,但不局限于特定的网络结构

  3. 第三,支持多种模型、算法和编码方案;第四,支持为并行处理中不同任务而设计的多个专用神经网络之间的交叉合作

因此我们需要一个通用平台来有效地支持统一架构中的这些特性,该架构可以实现流行的 ANN 以及神经科学启发的模型和算法。

计算机科学+神经科学

为了支持这些特性,研究者开发了一个跨范式(cross-paradigm)计算芯片,它可以适用于计算机科学导向和神经科学导向的神经网络(图 1)。设计一个兼容多种神经模型和算法的通用平台是一项基本的挑战,特别是对不同的 ANN 和生物启发的基元(如 SNN)而言。通常情况下,ANN 和 SNN 在信息表征、计算哲学和记忆组织方面具有不同的建模范式(图 2a)。其中,最大的差异是ANN精确的多位值(multibit value)处理信息,而 SNN 使用的是二进制脉冲序列。为了在一个平台上实现这两种模型,脉冲需要表征为数字序列(1 或 0),以便它们与数位的 ANN 编码格式兼容。

其他几个关键点也需要仔细考虑:

  1. 首先,SNN 是在时空域上运行的,它需要在特定的时间内记忆历史膜电位和脉冲模式,而 ANN 则是在中间累积加权激活,并在每个周期更新信息

  2. 其次,SNN 的计算包括膜电位集成、阈值交叉和电位重置,这些都是由脉冲事件驱动的。与之相反,ANN 主要与密集的乘法累加(MAC)运算和激活转换有关

  3. 第三,SNN 中脉冲模式的处理需要可编程位存储器和高精度存储器来存储膜电位、触发阈值和不应期,而 ANN 只需要字节级存储器用于激活存储和转换即可

通过编译这两个领域中的各种神经网络模型,我们能够进行详细的比较,从而促使模型数据流一一对应相关构件,即轴突、突触、树突、胞体和神经路由器(router)。在统一抽象的基础上,研究者构建了一个跨范式的神经元方案(图 2c)。总的来说,其中的突触和树突是可以共享的,而轴突和胞体是可以单独重构的

  1. 轴突块中,研究者部署了一个小的缓冲存储器来存储 SNN 模式下的历史脉冲模式。
    这个缓冲区内存支持可重构的脉冲收集持续时间和通过移位操作实现的位级访问。在 ANN 模式下,相同的内存可以被重组为双向数据块(ping-pong chunk),以缓冲输入和输出数据;这就为并行处理解耦了计算和数据传输。

  2. 在这里,突触权重神经元参数被固定在芯片上的内存中,并通过最小化处理单元与内存之间的数据传送来实现本地化的高通量计算。

  3. 树突块中,SNN 模式下的膜电位集成与 ANN 模式下的 MAC 共享相同的计算器,同时在处理过程中重新统一了 SNN 和 ANN 的高级别抽象。

结合轴突、突触、树突和胞体,研究者设计出了一个统一的功能核(FCore);为了实现深度融合,几乎整个 FCore 都是可重构的,从而可以在不同的模式下获得较高的利用率。

树突和胞体在操作过程中被分成多个组,每个组中的计算都是并行的 (在每个时钟周期下每个树突使用 16 个 MAC),而组间执行是串行的。FCore 能够涵盖大多数 ANN 和 SNN 所使用的线性集成和非线性转换操作。

此外,为了在神经元之间传递信息,研究者还建立了一个神经路由器来接收和发送消息。由于消息可以根据配置以 ANN 或 SNN 格式进行编码,所以研究者为路由包设计了统一输出格式。路由包通常包含控制、地址和数据段,其中数据段既可以是 ANN 模式下的多位激活值,也可以是 SNN 模式下的空值,因为路由包本身充当了一个脉冲事件。根据需要,前胞体(pre-soma)可以根据胞体配置将输出打包成 SNN 或 ANN 格式,后轴突(post-axon)可以根据轴突配置将路由包解析为 SNN 或 ANN 格式。

由于轴突(输入)和胞体(输出)完全独立的可配置性,以及共享的树突(计算),FCore 通过适当地连接多个核心,为构建同构或异构网络提供了极大的灵活性。如果将所有部件以相同的模式配置,一个 SNN 或 ANN 网络基元的同构范式可以支持许多单一范式模型,包括 SNN 和 ANN(如多层感知器、卷积神经网络、循环神经网络和基于速率的生物启发神经网络)。此外,FCore 允许构建异构网络来探索混合建模。通过对轴突和胞体在不同模式下的独立配置,可以轻松地实现一个「以 ANN 为输入、以 SNN 为输出」或「以 SNN 为输入、以 ANN 为输出」的混合网络基元(图 2e)。换句话说,FCore 可以充当 ANN/SNN 转换器。这种跨范式方案为设计创新的混合模型提供了可能,并为跨模型探索提供了一个有效的平台。


2

图 2: 天机芯片的设计。

a.ANN 或者生物启发神经元(例如 SNN)的计算模型。w_0、w_1、w_2 是突触权重;x_0, x_1, x_2 是输入激活;Σ是树突整合;f 是激活函数;b 是偏差。b 图是 ANN 或者 SNN 神经元的实现图解。V(t) 是 t 时间步的神经膜电位,V_th 是发放阈值。蓝色框中的数值是输入激活/spike 和权重值样本。SNN 通道中暗紫色相乘符号表明树突或许可以不做乘法运算(例如,时间窗长度等于 1 时)。c 图是混合线圈的图解,表示融合了 ANN 和 SNN 组件的一种跨范式神经元。d 图是统一的功能核(FCore)图解。每个 FCore 包括轴突、突触、树突、胞体和神经路由器构建单元。e 图是 FCore 的灵活建模配置和拓扑结构。编码方式可在 ANN 和 SNN 模式之间自由转换,使得异相神经网络成为可能。这种方式也能满足实现任意网络拓扑结构的灵活连接。f 图展示了核与芯片级别 2D 网络架构的层级,证明了该技术的扩展能力。


3

图 3: 芯片评估与建模。

a:集成布局和封装的天机芯片。b:左:不同功能(轴突、树突、神经路由器等)所占芯片面积的百分比。得益于高水平的资源共享和可重构性,只需要很小的区域增长(大约 3%)就可以融合这两种范式。c:FCore 电源故障。d:评估 FCore 在各种单一范式模型中的性能,包括 SNN、MLP、CNN(折叠或展开映射下)和长短期记忆网络(LSTM)。e:左:一个大规模使用 ANN 树突状继电器实现 SNN 的例子。在人工神经网络继电器的帮助下,传输中间膜电位的精度很高,混合设备能够达到比单独 SNN 更高的识别精度,硬件开销可以忽略不计。f:天机芯片还可以支持更多生物学上可行的神经网络模型(如 CANN、树突状多室模型)。


4

图 4: 基于天机芯片的无人自行车多模态集成。

a:左、中:自行车实验中执行的任务,包括实时目标检测、跟踪、语音感知、跨越减速带、自动避障和姿态平衡。这辆自行车配备了摄像头、陀螺仪、速度计、马达和一个天机芯片。IMU:惯性测量装置。b:无人驾驶自行车实验中使用的多个神经网络。NSM 图中的状态定义为:语音命令执行 (S0)、人体检测 (S1)、人体跟踪 (S2)、避障开始 (S3)、避障完成等待 (S4)。init 坐标是初始化坐标。C_en、A_en、V_en、T_en 分别表示 CNN、CANN、语音控制、转弯控制的启用信号。c:SNN 语音命令识别测试。产生最多脉冲的神经元表示结果分类。d:跟踪测试。y 轴表示人体在画面中的相对水平位置。这辆自行车自动避开障碍物,然后跟随一位沿 S 型曲线跑步的教练。e:MLP 网络控制的平衡和转弯,在不同速度下(从低到高)模拟多个调谐良好的控制器的输出,进行训练。