CPU遇摩尔定律瓶颈 FPGA混合元件或成解决方案

2015-06-23 22:04:02 Digitimes
各科技大厂莫不希望能以更少的成本、在更小的空间里嵌入更多运算电晶体,有厂商开始转向开发现场 可编程闸阵列(Field Programmable Gate Array;FPGA)平行架构,整合FPGA处理器优势打造低功耗、高效能的Saturn 1伺服器,也打造出更易于作业的Carte开发环境,可望推动未来市场主流应用。
 
根据The Platform报导分析,近年处理器研发遇上摩尔定律(Moore's Law)瓶颈,厂商们想破头提升产品应用效能,业界与高效能运算市场也开始热烈讨论FPGA架构应用。业界与学界已有多年运用FPGA元件的经验,譬如超 级电脑大厂Cray在2004年以1.15亿美元买下OctigaBay,利用其超微Opteron处理器FPGA元件打造出Cray XD1超级电脑。
 
总部设在美国科罗拉多州的SRC Computers,根据商用CPU芯片设计高效能丛集(high performance cluster)时,发现以FPGA取代传统特殊应用积体电路(ASIC)效能尤佳。
 
SRC 总裁Jon Huppenthal表示,可重组态(reconfigurable)的处理器系统有两大特点,一是优点多,二是如果没有人懂得设计,就没有人愿意使用。 因此,欲研发整合CPUFPGA的系统最耗时之处,在于打造易于使用的开发环境,而SRC已成功将C语言这样的顺序语言(sequential language)套入一个本质上是平行的执行环境。
 
Huppenthal近一步比较SRC的作法以及将 OpenCL当作平台,从CPU传送程式码至GPUFPGA加速器的方式。他指出,后者的问题在于,加速器挂在PCI-Express汇流排不仅速度过 慢,也无法与混合式系统中的CPU共享主存储器,导致资料必须在处理器与加速器之间不断来回,且必须由CPU处理一切应用与执移动作。
 
而 SRC推出的MAP混合处理器与Carte开发环境,不论是使用C语言还是Fortran语言的程式设计师,甚至不会感觉到正处于采用FPGA的环境中。 Carte在用户端机器上运行编码与除错环境,程式码执行后,会借由负责存储器共享互连的SNAP技术,自动整合分配资料给CPU处理器FPGA的硬体 描述语言(Hardware Description Language;HDL)。
 
NVIDIA的 Tesla GPU也采用类似的高速共享存储器互连技术NVLink,IBM也透过其协同加速处理器介面(Coherent Accelerator Processor Interface;CAPI)将这类技术应用到Power-Tesla混合处理器上。
 
有了核心互连技术,客户就能根据需求调整硬体设计。譬如,若需要50个浮点单元(FPU),便可以自行加入系统。此外,由于应用与其资料流皆以HDL方式运用,且基本上是以硬体方式运行,因此表现更佳。
 
此 外,FPGA可以很快地改变应用属性(application personality),使混合式系统能在短时间内处理多重工作。FPGA实现平行处理应用,具备高处理效能、低功耗特性,适合用于资料中心中的伺服器 整合,也可作为无人机上面的讯号处理、控制系统等应用。
 
至于已采FPGA应用多年的金融服务机构、国防部门、情报单位等客户,可透过Carte继续于MAP混合处理器上运行Verilog与HDL语言。
 
SRC为了进入超大规模(hyperscale)伺服器市场,决定与惠普(HP)合作,为惠普的Moonshot伺服器系统打造MAP伺服器卡匣(cartridge)。
 
高 运算密度的商用Moonshot伺服器系统于2013年推出,不过由于该系统采用4.3U机箱、45个运算节点,因此无法支援庞大复杂的处理器,也降低了 资料中心采用的意愿。SRC使用1个英特尔(Intel)Atom处理器与2个Altera Stratix IV FPGA,打造Saturn 1伺服器节点。
 
Moonshot伺服器的特别之处在于,其背板采用2D环绕网状网路(torus)以及每秒7.2TB的总和频宽,此互连系统能将机壳内所有的运算或储存节点相连,无需任何交换动作。而机壳内的交换器模组,让Moonshot能和外界互连。
 
Saturn 1伺服器卡匣采用英特尔4核心Xeon Atom处理器FPGA方面则是2个Altera Stratix IV GX530,其中一个FPGA负责执行SNAP互连技术及用于2D环绕网状网路的多重虚拟乙太网路埠。MAP节点无需搭载作业系统,因为节点会直接处理应 用程式码,不过用户若需要,可在每一个Atom处理器上启用Linux内核(kernel)。
 
Saturn 1伺服器卡匣每个节点要价19,950美元,其中包括Atom与Stratix处理器的开机管理程式(boot loader)码,以及Carte开发环境的使用权限。
 
据 SRC表示,要1,276个传统高阶4核心Xeon W3565处理器机柜,也就是约5.1万个伺服器节点与40.8万个左右的处理器核心,才能等同一个搭载378个MAP混合处理器之Moonshot机柜 的运算能力。与X86伺服器丛集相比,导入FPGA的应用可望达到100倍效能、1%能源消耗、1%碳足迹,并节省75%以上的成本。
 
最 早采用Saturn 1混合伺服器的客户,是预计2015年底发表首个产品的美国广告新创公司Jingit。Jingit希望能提供端点销售系统(Point of Sales;POS)服务,在人们购买物品的当下提供客制化折价券。为此,Jingit必须有强大的后端系统,根据用户结帐物件与历史消费纪录,在等待信 用卡认证这不到1秒的时间内计算出最适合该用户的折价券。
 
x86系统架构难以应付Jingit所需的庞大资料处理量,且花费时间过长。而若将Jingit应用架设于Saturn 1节点上,处理时间则可缩短至奈秒(nanosecond)级。
 
FPGA应用市场才正要起步,而有了像是Moonshot伺服器与Carte开发程式环境这类新技术,未来可望在市场上见到更多产品应用。

关键词:

  • EETOP 官方微信

  • 创芯大讲堂 在线教育

  • 创芯老字号 半导体快讯

全部评论