替代英伟达GPU,亚马逊如何用自研定制芯片对抗微软和谷歌?
2023-08-13 11:14:23 EETOP本文由EETOP编译自CNBC
在德克萨斯州奥斯汀市一栋没有任何标志的办公楼里,两个小房间里有几名亚马逊的员工正在设计两种用于训练和加速生成式人工智能的微芯片。这些定制芯片,即 Inferentia 和 Trainium,为 AWS 客户提供了在英伟达(Nvidia)GPU 上训练大型语言模型的替代方案。
" AWS首席执行官亚当-塞利普斯基(Adam Selipsky)在6月份接受CNBC采访时表示:"整个世界都希望有更多的芯片来做生成式人工智能,无论是GPU还是亚马逊自己设计的芯片。"我认为,我们比地球上任何其他人都更有能力提供客户共同需要的能力。"
然而,也有一些公司行动得更快,投资得更多,以便从生成式人工智能的热潮中抢占商机。当OpenAI 在 去年11 月推出 ChatGPT 时,微软因为拥有了这个病毒式聊天机器人,并向 OpenAI 投资了 130 亿美元,而获得了广泛关注。微软很快将生成式人工智能模型添加到自己的产品中,并于 2 月份将其纳入必应(Bing)。
同月,谷歌推出了自己的大语言模型 Bard,随后又向 OpenAI 的竞争对手 Anthropic 投资了 3 亿美元。
直到今年4 月份,亚马逊才宣布推出自己的大语言模型系列,名为 Titan,以及一项名为 Bedrock 的服务,帮助开发者利用生成式人工智能增强软件。
"亚马逊不习惯追逐市场。亚马逊习惯于创造市场。” Gartner 公司副总裁分析师 Chirag Dekate 说:"我认为,这是他们很长时间以来第一次发现自己处于劣势,他们正在努力迎头赶上。
Meta 最近也发布了自己的 LLM Llama 2。这款开源的ChatGPT 的竞争对手现在可以在微软的 Azure 公共云上进行测试。
芯片是 "真正的差异化
Dekate说,从长远来看,亚马逊的定制芯片可能会让它在生成式人工智能领域占据优势。
他说:“我认为,真正的区别在于他们带来的技术能力。因为你猜怎么着?微软没有Trainium或interentia。”
早在2013年,AWS就悄然开始生产定制芯片,并推出了一款名为Nitro的专用硬件。它现在是AWS产量最高的芯片。亚马逊告诉CNBC,每台AWS服务器上都至少有一个,目前使用的总数已超过2000万。
2015 年,亚马逊收购了以色列芯片初创公司 Annapurna Labs。然后在 2018 年,亚马逊推出了基于 Arm 的服务器芯片 Graviton,这是 AMD 和英特尔等巨头 x86 CPU 的竞争对手。
"Arm可能占服务器总销售额到10%,其中很大一部分将是亚马逊的产品。伯恩斯坦研究公司(Bernstein Research)高级分析师斯泰西-拉斯贡(Stacy Rasgon)说:"因此,在 CPU 方面,他们的表现相当不错。
同样在 2018 年,亚马逊推出了以人工智能为重点的芯片。这是在谷歌宣布其首个张量处理器单元(Tensor Processor Unit,简称 TPU)两年后。两年前,谷歌发布了首款张量处理器(Tensor Processor Unit,简称TPU)。微软尚未宣布其正在与AMD合作开发的雅典娜人工智能芯片。
CNBC 对亚马逊位于德克萨斯州奥斯汀的芯片实验室进行了幕后参观,Trainium 和 Inferentia 就是在这里开发和测试的。产品副总裁马特-伍德(Matt Wood)解释了这两款芯片的用途。
“机器学习分为这两个不同的阶段。先训练机器学习模型,然后对这些训练过的模型进行推理。”伍德说。“与AWS上任何其他训练机器学习模型的方式相比,Trainium的性价比提高了约50%。
继 2019 年发布Inferentia 之后,Trainium 于 2021 年首次投放市场,目前已是第二代产品。
Inferentia允许客户"提供非常、非常低成本、高吞吐量、低延迟的机器学习推理,也就是当你向生成式人工智能模型输入一个提示时,所有的预测都会在这里得到处理,从而给出响应,"伍德说。
不过,就目前而言,Nvidia 的GPU 仍然是训练模型的王者。今年 7 月,AWS 推出了由 Nvidia H100 驱动的新 AI 加速硬件。
"Nvidia芯片拥有一个庞大的软件生态系统,在过去的15年里,围绕它建立起来的软件生态系统是其他公司所没有的,"Rasgon说。"现在人工智能的最大赢家是Nvidia。"
2023年7月13日,亚马逊的定制芯片,从左到右,Inferentia, Trainium和Graviton在亚马逊西雅图总部展出。
利用云计算的优势
然而,AWS在云计算领域的主导地位是亚马逊的一大优势。
“亚马逊不需要赢得头条新闻。亚马逊已经拥有非常强大的云安装基础。他们所需要做的就是弄清楚如何利用生成式人工智能使现有客户扩展到价值创造运动中。”
当在亚马逊、谷歌和微软之间选择生成式人工智能时,数百万AWS客户可能会被亚马逊吸引,因为他们已经熟悉亚马逊,在那里运行其他应用程序并存储数据。
“这是一个速度的问题。AWS技术副总裁Mai-Lan Tomsen Bukovec解释说:“这些公司能够多快地开发这些生成式人工智能应用程序,取决于他们首先从AWS中的数据开始,并使用我们提供的计算和机器学习工具。”
根据科技行业研究机构高德纳(Gartner)的数据,AWS是全球最大的云计算提供商,到2022年占据40%的市场份额。尽管亚马逊的营业利润已经连续三个季度同比下降,但在亚马逊第二季度77亿美元的营业利润中,AWS仍然占到了70%。从历史上看,AWS的运营利润率远高于谷歌云。
AWS还拥有越来越多的专注于生成式人工智能的开发人员工具组合。
“让我们把时钟倒回去,甚至在ChatGPT之前。AWS负责数据库、分析和机器学习的副总裁斯瓦米•西瓦苏布拉马尼安表示:“并不是在那件事发生后,我们突然匆忙想出了一个计划,因为你不可能在那么短的时间内设计出一个芯片,更不用说在2到3个月内构建一个Bedrock服务了。”
Bedrock可以让AWS客户访问由Anthropic、Stability AI、AI21 Labs和亚马逊自己的Titan制作的大语言模型。
Sivasubramanian说:“我们不相信一种模式会统治世界,我们希望我们的客户拥有来自多个供应商的最先进的模型,因为他们会为正确的工作选择正确的工具。”
2023 年 7 月 25 日,在德克萨斯州奥斯汀的 AWS 芯片实验室,一名亚马逊员工穿着印有 AWS 芯片 Inferentia 的夹克,正在研究定制的人工智能芯片。
亚马逊最新的人工智能产品之一是 AWS HealthScribe,这是 7 月份推出的一项服务,利用生成式人工智能帮助医生起草病人就诊摘要。亚马逊还有一个机器学习中心 SageMaker,提供算法、模型等。
另一个重要工具是编码辅助工具CodeWhisperer,亚马逊称,它使开发人员完成任务的速度平均提高了57%。去年,微软也报告称其编码工具 GitHub Copilot 提高了工作效率。
今年 6 月,AWS 宣布成立一个价值 1 亿美元的生成式人工智能创新中心。
"我们有很多客户都在说,'我想做生成式人工智能',但他们不一定知道这对他们自己的业务意味着什么。因此,我们将引入解决方案架构师、工程师、战略家和数据科学家,与他们进行一对一的合作,"AWS 首席执行官塞利普斯基说。
虽然到目前为止,AWS 主要关注的是工具,而不是构建 ChatGPT 的竞争对手,但最近泄露的一封内部邮件显示,亚马逊首席执行官安迪-贾西(Andy Jassy)也在直接监督一个新的中央团队构建扩展性大语言模型。
在第二季度财报电话会议上,贾西表示,AWS 目前 "非常大的一部分 "业务是由人工智能及其提供的 20 多种机器学习服务驱动的。其中一些客户包括飞利浦、3M、Old Mutual 和汇丰银行。
人工智能爆炸式增长的同时,也带来了大量的安全问题,一些公司担心员工将专有信息放入公共大语言模型使用的训练数据中。
"我无法告诉你我接触过多少家禁止使用 ChatGPT 的财富 500 强公司。因此,有了我们的生成式人工智能方法和 Bedrock 服务,你所做的任何事情,你通过 Bedrock 使用的任何模型,都将在你自己的隔离虚拟私有云环境中进行。它将被加密,并具有相同的 AWS 访问控制,"Selipsky 说。
目前,亚马逊只是在加速推动生成式人工智能的发展,它告诉CNBC,目前有 "超过10万 "的客户正在AWS上使用机器学习。虽然这只是 AWS 数百万客户中的一小部分,但分析师表示,这种情况可能会发生变化。
Dekate说:"我们并没有看到企业说,'哦,等一下,微软在生成式人工智能方面如此领先,让我们出去,让我们改变基础设施战略,把一切都迁移到微软'。"如果你已经是亚马逊的客户,那么你很可能会广泛地探索亚马逊的生态系统。"
报名提醒: