令人兴奋的IBM “人脑” AI 芯片
2023-10-30 12:19:45 EETOPIBM 目前推出的 NorthPole 芯片,相对于传统芯片最大的不同点在于“芯片内置存储器”,在没有“冯 诺伊曼瓶颈”的情况下,NorthPole 芯片的 AI 推论能力优于市面上竞品。
“它的能源效率令人惊叹,”巴黎萨克雷大学帕莱索分校的纳米电子学研究员达米安·奎利奥兹 (Damien Querlioz) 说道。他说,这项发表在Science 1上的研究表明,计算和内存可以大规模集成。“我觉得这篇论文将动摇计算机架构中的普遍思维。”
研究合著者、IBM 计算机工程师 Dharmendra Modha 表示,这些核心在一个网络中连接在一起,其灵感来自于人类大脑皮层各部分之间的白质连接。这一设计原则和其他设计原则(其中大部分以前就存在,但从未被整合到一个芯片中)使 NorthPole 在图像识别的标准基准测试中以大幅优势击败现有的人工智能机器。尽管没有使用最新、最小型化的制造工艺,但它使用的能量仅为最先进人工智能芯片的五分之一。作者估计,如果 NorthPole 设计采用最新的制造工艺,其效率将比当前设计提高 25 倍。
NorthPole 运行神经网络:简单计算单元的多层阵列,经过编程可识别数据模式。底层接收数据,例如图像中的像素;每个连续层都会检测复杂性不断增加的模式,并将信息传递到下一层。顶层产生一个输出,例如,可以表示图像包含猫、汽车或其他物体的可能性。
虽然 NorthPole 采用 12nm 工艺,于 800 平方毫米上安置了 220 亿个晶体管,拥有 256 个核心,于 8-bit 精度下每核心每个周期可执行 2048 次操作,若是在 4-bit 或 2-bit 精度下,操作次数则可翻倍。
搭载 NorthPole 的 PCIe 卡,图源 IBM
在具体架构上,NorthPole 号称模糊了运算与存储间的界线,这让 NorthPole 容易整合至系统,且明显减少了搭载芯片的设备负载。
IBM Research 在 ResNet-50 模型上测试 NorthPole,相较于同样基于 12nm 工艺的 GPU 竞品,NorthPole 每秒辨识帧数的能效是竞品的 25 倍,而且不管是在延迟或运算空间的要求上,表现都优于市面上所有主流架构,甚至凌驾基于 4nm 工艺的 GPU。
不过,NorthPole 的优势同时也是它的弱点所在,NorthPole 只能轻松读取集成在芯片中的本地数据信息,读取外界数据时,便没有计算速度优势。
Modha 声称,虽然 NorthPole 无法用来承载 GPT-4,但应该可满足许多企业所需的模型推论要求。
目前 IBM Research 仍在研究 NorthPole 的适用领域,研究人员许多需要即时处理大量资料的边缘计算可能非常适合 NorthPole,例如自动驾驶、遥感通信等领域,NorthPole 均有用武之地。
冯·诺依曼瓶颈
有些计算机芯片可以高效地处理这些计算,但每次计算一层时,它们仍需要使用称为 RAM 的外部存储器。这种在芯片间穿梭数据的方式会减慢速度--这种现象被称为冯-诺依曼瓶颈(Von Neumann bottleneck),其名称源自数学家约翰-冯-诺依曼(John von Neumann)。
冯-诺依曼瓶颈是导致计算机应用(包括人工智能)速度减慢的最重要因素之一。它还导致能源效率低下。Modha表示,他曾经估计,在这种架构上模拟人脑可能需要相当于 12 个核反应堆的输出。