性能提高13倍、能耗降低10倍!谷歌DeepMind发表AI训练新方法
2024-07-08 11:46:12 EETOPDeepMind的方法被称为JEST,即联合样本选择(joint example selection),与传统的AI模型训练技术截然不同。典型的训练方法专注于单个数据点进行训练和学习,而JEST则基于整个批次进行训练。JEST方法首先创建一个较小的AI模型,用于从极高质量的来源中评估数据质量,并按质量对批次进行排名。然后,将这些评估结果与一个较大、质量较低的数据集进行比较。小型JEST模型确定最适合训练的批次,然后根据小模型的发现对大型模型进行训练。
这篇论文(arxiv.org/pdf/2406.17711)对研究中使用的过程和研究的未来进行了更全面的解释。
DeepMind的研究人员在论文中明确指出,这种“引导数据选择过程朝向较小、精心策划的数据集的分布”的能力是JEST方法成功的关键。成功确实是对这项研究的恰当描述;DeepMind声称,“我们的方法在迭代次数减少多达13倍和计算量减少多达10倍的情况下,超越了最先进的模型。”
上图显示了 JEST 方法在速度和 FLOPS 效率方面如何超越 SigLIP(用于在图像标题对上训练模型的领先方法),以及与许多其他方法相比。(图片来源:Google DeepMind、Evans 等)
当然,这个系统完全依赖于其训练数据的质量,因为如果没有高质量的人为策划的数据集,启动技术将失效。对于这个方法来说,“垃圾进,垃圾出”这句箴言再合适不过了,它试图在训练过程中“跳过”一些步骤。这使得JEST方法对于业余爱好者或业余AI开发者来说比大多数其他方法更难匹配,因为策划初始最高级别训练数据可能需要专家级的研究技能。
JEST研究的出现恰逢其时,因为科技行业和世界各国政府正开始讨论人工智能的极高电力需求。2023年,AI工作负载消耗了约4.3GW电力,几乎与塞浦路斯的年电力消耗相当。而且情况显然没有放缓的迹象:单个ChatGPT请求的电力成本是谷歌搜索的10倍,Arm的CEO估计到2030年AI将占据美国电网的四分之一。
是否以及如何在AI领域的大玩家中采用JEST方法还有待观察。据报道,训练GPT-4花费了1亿美元,而未来更大的模型可能很快会达到十亿美元的成本,因此各公司可能正在寻找方法以节省资金。希望JEST方法能够在保持当前训练生产率的同时,大大降低电力消耗,降低AI成本,帮助地球。然而,更有可能的是,资本机器将继续保持高速运转,利用JEST方法在最大功率下进行超快速训练输出。成本节约与输出规模相比,谁将胜出?
芯片精品课程推荐