各科技大厂莫不希望能以更少的成本、在更小的空间里嵌入更多运算电晶体,有厂商开始转向开发现场
可编程闸阵列(Field Programmable Gate
Array;
FPGA)平行架构,整合
FPGA与
处理器优势打造低功耗、高效能的Saturn
1伺服器,也打造出更易于作业的Carte开发环境,可望推动未来市场主流应用。
根据The
Platform报导分析,近年
处理器研发遇上摩尔定律(Moore's
Law)瓶颈,厂商们想破头提升产品应用效能,业界与高效能运算市场也开始热烈讨论
FPGA架构应用。业界与学界已有多年运用
FPGA元件的经验,譬如超
级电脑大厂Cray在2004年以1.15亿美元买下OctigaBay,利用其超微Opteron
处理器与
FPGA元件打造出Cray
XD1超级电脑。
总部设在美国科罗拉多州的SRC Computers,根据商用
CPU芯片设计高效能丛集(high performance cluster)时,发现以
FPGA取代传统特殊应用积体电路(ASIC)效能尤佳。
SRC
总裁Jon
Huppenthal表示,可重组态(reconfigurable)的
处理器系统有两大特点,一是优点多,二是如果没有人懂得设计,就没有人愿意使用。
因此,欲研发整合
CPU与
FPGA的系统最耗时之处,在于打造易于使用的开发环境,而SRC已成功将C语言这样的顺序语言(sequential
language)套入一个本质上是平行的执行环境。
Huppenthal近一步比较SRC的作法以及将
OpenCL当作平台,从
CPU传送程式码至
GPU及
FPGA加速器的方式。他指出,后者的问题在于,加速器挂在PCI-Express汇流排不仅速度过
慢,也无法与混合式系统中的
CPU共享主存储器,导致资料必须在
处理器与加速器之间不断来回,且必须由
CPU处理一切应用与执移动作。
而
SRC推出的MAP混合
处理器与Carte开发环境,不论是使用C语言还是Fortran语言的程式设计师,甚至不会感觉到正处于采用
FPGA的环境中。
Carte在用户端机器上运行编码与除错环境,程式码执行后,会借由负责存储器共享互连的SNAP技术,自动整合分配资料给
CPU处理器与
FPGA的硬体
描述语言(Hardware Description Language;HDL)。
NVIDIA的
Tesla
GPU也采用类似的高速共享存储器互连技术NVLink,IBM也透过其协同加速
处理器介面(Coherent Accelerator
Processor Interface;CAPI)将这类技术应用到Power-Tesla混合
处理器上。
有了核心互连技术,客户就能根据需求调整硬体设计。譬如,若需要50个浮点单元(FPU),便可以自行加入系统。此外,由于应用与其资料流皆以HDL方式运用,且基本上是以硬体方式运行,因此表现更佳。
此
外,
FPGA可以很快地改变应用属性(application
personality),使混合式系统能在短时间内处理多重工作。
FPGA实现平行处理应用,具备高处理效能、低功耗特性,适合用于资料中心中的伺服器
整合,也可作为无人机上面的讯号处理、控制系统等应用。
至于已采
FPGA应用多年的金融服务机构、国防部门、情报单位等客户,可透过Carte继续于MAP混合
处理器上运行Verilog与HDL语言。
SRC为了进入超大规模(hyperscale)伺服器市场,决定与惠普(HP)合作,为惠普的Moonshot伺服器系统打造MAP伺服器卡匣(cartridge)。
高
运算密度的商用Moonshot伺服器系统于2013年推出,不过由于该系统采用4.3U机箱、45个运算节点,因此无法支援庞大复杂的
处理器,也降低了
资料中心采用的意愿。SRC使用1个
英特尔(Intel)Atom
处理器与2个Altera Stratix IV
FPGA,打造Saturn
1伺服器节点。
Moonshot伺服器的特别之处在于,其背板采用2D环绕网状网路(torus)以及每秒7.2TB的总和频宽,此互连系统能将机壳内所有的运算或储存节点相连,无需任何交换动作。而机壳内的交换器模组,让Moonshot能和外界互连。
Saturn
1伺服器卡匣采用
英特尔4核心Xeon Atom
处理器,
FPGA方面则是2个Altera Stratix IV
GX530,其中一个
FPGA负责执行SNAP互连技术及用于2D环绕网状网路的多重虚拟乙太网路埠。MAP节点无需搭载作业系统,因为节点会直接处理应
用程式码,不过用户若需要,可在每一个Atom
处理器上启用Linux内核(kernel)。
Saturn 1伺服器卡匣每个节点要价19,950美元,其中包括Atom与Stratix
处理器的开机管理程式(boot loader)码,以及Carte开发环境的使用权限。
据
SRC表示,要1,276个传统高阶4核心Xeon
W3565
处理器机柜,也就是约5.1万个伺服器节点与40.8万个左右的
处理器核心,才能等同一个搭载378个MAP混合
处理器之Moonshot机柜
的运算能力。与X86伺服器丛集相比,导入
FPGA的应用可望达到100倍效能、1%能源消耗、1%碳足迹,并节省75%以上的成本。
最
早采用Saturn
1混合伺服器的客户,是预计2015年底发表首个产品的美国广告新创公司Jingit。Jingit希望能提供端点销售系统(Point of
Sales;POS)服务,在人们购买物品的当下提供客制化折价券。为此,Jingit必须有强大的后端系统,根据用户结帐物件与历史消费纪录,在等待信
用卡认证这不到1秒的时间内计算出最适合该用户的折价券。
x86系统架构难以应付Jingit所需的庞大资料处理量,且花费时间过长。而若将Jingit应用架设于Saturn 1节点上,处理时间则可缩短至奈秒(nanosecond)级。
FPGA应用市场才正要起步,而有了像是Moonshot伺服器与Carte开发程式环境这类新技术,未来可望在市场上见到更多产品应用。