微软发布最轻量级大语言模型!可在CPU上高效运行
2025-04-18 11:42:24 EETOP微软研究人员刚刚创建了 BitNet b1.58 2B4T,这是一个开源的 1 比特大语言模型(LLM),拥有 20 亿个参数,在 4 万亿个词元上进行了训练。但这个人工智能模型的独特之处在于它足够轻量,可以在中央处理器(CPU)上高效运行,《科技创业》杂志称苹果 M2 芯片就能运行它。该模型在 Hugging Face 平台上也可轻易获取,任何人都能对其进行测试。
Bitnet 使用 1 比特权重,只有三种可能的值:-1、0 和 + 1 —— 从技术上讲,由于支持三种值,它是一个 “1.58 比特模型” 。与采用 32 比特或 16 比特浮点格式的主流人工智能模型相比,这节省了大量内存,使其运行效率更高,对内存和计算能力的需求也更低。不过,Bitnet 的简单性也有一个缺点 —— 与更大的人工智能模型相比,它的准确性较差。然而,BitNet b1.58 2B4T 凭借其庞大的训练数据弥补了这一点,据估计这些数据相当于 3300 多万本书。
这个轻量级模型背后的团队将其与领先的主流模型进行了对比,包括 Meta 的 LLaMa 3.2 1B、谷歌的 Gemma 3 1B 和阿里巴巴的 Qwen 2.5 1.5B。在大多数测试中,BitNet b1.58 2B4T 与这些模型相比得分相对较高,甚至在一些基准测试中名列前茅。更重要的是,它在非嵌入式内存中仅占用 400MB,不到第二小的模型(Gemma 3 1B,占用 1.4GB)的 30% 。
然而,这个大语言模型必须使用 bitnet.cpp 推理框架才能如此高效地运行。该团队特别指出,“在使用标准的 Transformer 库时,即使是经过必要修改的版本,这个模型也无法获得性能效率提升” 。
如果你想在轻量级硬件上利用它的优势,就需要获取 GitHub 上提供的该框架。该代码库称 bitnet.cpp 提供了 “一套经过优化的内核,支持在 CPU 上对 1.58 比特模型进行快速无损推理(接下来还将支持神经网络处理器和图形处理器)” 。虽然目前它还不支持人工智能专用硬件,但它仍能让任何拥有电脑的人在无需昂贵组件的情况下进行人工智能实验。
人工智能模型常常因训练和运行时能耗过高而受到批评。但像 BitNet b1.58 2B4T 这样的轻量级大语言模型可以帮助我们在性能较弱的硬件上本地运行人工智能模型。这可以减少我们对大型数据中心的依赖,甚至能让那些没有配备内置神经网络处理器的最新处理器以及最强大图形处理器的人也能使用人工智能。