首页
论坛
博客
大讲堂
人才网
直播
资讯
技术文章
频道
登录
注册
x
OpenAI要自研AI芯片?
2023-10-12 11:46:50
EETOP
点击关注->
创芯网公众号
,后台告知EETOP论坛用户名,奖励200信元
在
Nvidia
数据中心业务中找到比它增长更快的东西可能会很困难,但有一个竞争者:
Open
AI
。
有消息称Open
AI
正考虑自研
AI
芯片
。这种猜测源于该公司的快速增长以及使用Nvidia基于
GPU
的系统所带来的巨大成本。Open
AI
对更具成本效益的替代方案的追求以及对基础架构更大控制权的渴望引发了关于开发自有
AI
芯片
的猜测。
Open
AI
是GPT生成式
人工智能
模型和聊天机器人接口的创造者,今年它风靡全球。它还是一家在Gen
AI
商业化方面拥有一定先发优势的公司,这部分要归功于其与微软130亿美元的巨额合作伙伴关系。
考虑到Open
AI
在客户和收入方面的增长速度非常快,以及为训练和运行其不断扩大的
人工智能
模型所需的高成本,毫不奇怪有传言称Open
AI
正在考虑设计自己的
人工智能
芯片
,并将其制造成自家系统,以减少对基于Nvidia的
GPU
系统的依赖 - 无论是租用来自微软Azure云的Nvidia A100和H100
GPU
容量,还是构建或购买基于这些
GPU
的系统并将它们部署在合作或自家数据中心。
鉴于云构建商对
GPU
容量的高溢价定价,像Open
AI
这样的公司肯定在寻找更便宜的替代方案,而且在创业阶段,它们显然还不足以排在需要各种服务的Microsoft、Google、Amazon Web Services和日益壮大的Meta Platforms前面。
GPU
实例的利润令人惊讶,而且这还是在
GPU
系统组件的成本非常高之后。为了证明这一点,我们最近分析了基于Nvidia A100和H100
GPU
的Amazon Web Services的P4和P5实例的数据,以及它们的前身,显示AWS对A100和H100的三年预留实例拥有接近70%的运营利润率。
当然,云定价和
GPU
系统配置有所不同,但原则是相同的。如今,出售
GPU
容量比在沙漠中无法找到绿洲和挖井给人们卖水更容易,而且没有必要支付云溢价,甚至
芯片
制造商和系统制造商的溢价,但任何希望设计定制
芯片
和相关系统的人都必须具备一定规模,以承担如此庞大的工程师和铸造以及组装能力的投资。看起来 Open
AI
正在这条轨道上,除了与微软的交易之外,它还将自己 49% 的股份出售给了这家软件和云巨头,以换取使用 Open
AI
模型的独家许可,并拥有本质上是往返微软,支付 Open
AI
训练其模型所需的 Azure 云上的
GPU
容量费用。
根据路透社的另一份报告,去年Open
AI
的销售额为2800万美元,而《财富》杂志在其报告中写道,这家公司去年亏损了5.4亿美元,虽然它不是上市公司。现在你知道为什么Open
AI
不得不亲近微软,这可能是将
人工智能
嵌入到许多系统软件和应用程序的最佳途径。今年早些时候,Open
AI
告诉人们,今年可能会实现2亿美元的销售额,但在8月份,它表示在未来12个月内,将实现10亿美元的销售额,提供对其模型和聊天机器人服务的访问。如果这是真的,没有理由相信Open
AI
不能赚得盆满钵满,特别是如果微软付费使用 Azure,这意味着净成本为零。
假设Open
AI
今年可能有5亿美元的资金,明年可能有3倍的资金,如果其增长放缓,成本不会大幅上升。如果情况确实如此,那么Sam Altman等人是赢家,因为我们认为Open
AI
的创始人和所有者现在不希望其持股比例降至51%以下,因为这将失去对公司的控制。Open
AI
可能有足够的资金来制造
AI
芯片
,而不需要寻找更多的投资者。
因此,再次强调Open
AI
正在寻找降低成本的方式并不奇怪。考虑到Nvidia对
GPU
的高价溢价和云端为租用的
GPU
系统容量收费高昂,Open
AI
如果没有考虑设计用于其
AI
模型的计算和互连
芯片
选项,那就太愚蠢了。以前不应该这样做,但现在显然是开始这条道路的时候。
我们今年早些时候从The Information获得的消息是,微软有自己的
AI
芯片
项目,代号"Athena",始于2019年,显然已经有一些
测试
芯片
提供给了微软和Open
AI
的研究人员。(重要的是要记住这是两家独立的公司。)尽管微软推动了各种
芯片
的发展,特别是在其Xbox游戏机中的自定义
CPU
-
GPU
复合
芯片
,但开发如此大型和复杂的
芯片
在每个制造过程节点都变得越来越昂贵,并且存在风险,因为任何延迟 - 总会有延迟 - 都可能使微软落后于竞争对手。
Google首先推出了自家的Tensor Processing Units(TPUs),与Broadcom合作进行共同设计和制造。AWS随后推出了其Trainium和Inferentia
芯片
,由其Annapurna Labs部门负责制造,制造商是
台积电
,这也是Google TPU的晶圆厂。Marvell帮助Groq将其GroqChip和互连技术推向市场。Meta Platforms正在开发自家的MTIA
芯片
用于
AI
推断,并同时还在研发用于
AI
培训的变种。
AI
培训
芯片
领域还包括Cerebras Systems、SambaNova Systems、Graphcore和Tenstorrent等设备。
这些
AI
初创公司的估值可能过高 - 数十亿美元 - Open
AI
可能无法收购它们,但吉姆·凯勒(Jim Keller)的Tenstorrent公司是独一无二的,因为该公司愿意向任何想要构建自己的
AI
加速器或拥有其
RISC
-V
CPU
的人授予IP许可。考虑到GPT模型在
AI
领域的重要性,我们认为任何
AI
初创公司都会达成类似的IP许可协议,成为Open
AI
的首选平台,几乎可以肯定Open
AI
有能力在发现微软Azure价格过高时转向自家硬件。
让我们进行一些有趣的数学计算。购买一个具有约20亿FLOP的全球一流
人工智能
训练集群(不包括支持矩阵稀疏性的支持)现在需要花费超过10亿美元,使用Nvidia H100
GPU
。在云中租用三年的容量将这个成本增加2.5倍。这包括群集节点的网络、计算和本地存储,但不包括任何外部、高容量和高性能的文件系统存储。开发一个规模相当适度的新
芯片
成本在2000万至5000万美元之间。但假设它要更多。但要记住,构建一个
人工智能
系统涉及的不仅仅是设计矩阵引擎并将其交给
台积电
。
云构建商购买一个基于Hopper H100的八
GPU
节点的成本可能接近30万美元,包括InfiniBand网络(网卡、电缆和交换机)的部分。这假定了节点之间采用NVSwitch互连。(这比单元购买更便宜。)你可以使用只有两个或四个
GPU
的较小节点,并使用这些
GPU
之间的直接NVLink端口,但共享内存域较小。这具有成本更低的优势,但共享内存的大小较小,这会影响模型训练性能和规模。
同一个 8
GPU
节点的按需租金为 260 万美元,AWS 的三年内预留费用为 110 万美元,微软 Azure 和谷歌云的租金可能也相同。因此,如果 Open
AI
能够以低于 50万美元的价格构建其系统(全部成本全部投入),那么它将削减一半以上的 IT 费用,同时掌控自己的命运。将 IT 费用削减一半,模型规模增加了一倍。将其削减四分之三即可使其翻两番。这对于模型尺寸每两到三个月翻一番的市场来说非常重要。
需要记住的是,如果
AI
芯片
设计或制造出现问题,Open
AI
也可能面临自己的困境,此时,Open
AI
将被排在Nvidia提供的
GPU
访问队列的后面,而在微软那里,位置也会进一步下降。
因此,需要考虑到这一点。这就是为什么所有云端和大多数超大规模云供应商都会购买Nvidia
GPU
,并设计和构建自己的加速器和系统。他们也不能承受被迎头赶上的风险。
所以这也需要考虑。这就是为什么所有的云服务提供商和大多数超级规模云计算供应商都会购买Nvidia的
GPU
,同时设计和构建自己的加速器和系统。他们也不能承担被抓个措手不及的风险。
本文由EETOP编译自nextplatform
关键词:
OpenAI
chatgpt
AI芯片
EETOP 官方微信
创芯大讲堂 在线教育
创芯老字号 半导体快讯
相关文章
上一篇:
分析机构:生成式AI被过度炒作,预计20
下一篇:
工信部:我国AI核心产业规模达 5000
0
全部评论
最新资讯
助力低碳数字未来 英飞凌携多款创新成果
从专业应用到大众市场:Qorvo QPF5100Q U
原子级芯片对准!激光全息图可能彻底改变
突发!英伟达 H20 被正式管制!
高性能三通道双向电源:实现更多测试与更高
突发!美国限制英伟达H20出口
客户案例:利用设备租赁在意外停机期间维持
兆易创新携全系产品及解决方案亮相2025上海
德州仪器亮相 2025 年慕尼黑上海电子展,
德州仪器新型汽车芯片助力汽车制造商提升车
最热资讯
H20芯片限制解除!晚宴上发生了什么?黄教
重磅!国产量子计算机全球首次运行AI微调大
量子计算能带 AI 起飞吗?
无人驾驶现在到了什么级别了?
日本AI第一人这样评价Deepseek
浅析狭义AI 、通用AI 与超级AI
Flyability于今日发布Elios 3,一款工业4.
消息称字节跳动采购10万颗华为GPU!
eIQ® Time Series Studio简介:简化边缘 AI 开发
使用ChatGPT进行3D打印