AI训练新时代:从集中式机房迈向分布式网络
作者:Egor Shulgin,Gonka协议
随着AI技术的快速发展,其训练需求已超越单一物理位置的承载能力。面对这一挑战,研究人员正在探索如何协调分布在全球范围内的数千个处理器。答案在于更高效的算法——通过减少通信频率来实现分布协作。这一转变由联邦优化领域的突破推动,并在DiLoCo等框架中得到具体体现,使得通过标准互联网连接训练数十亿参数模型成为可能,为全球协作式AI开发开启了新篇章。
1. 起点:数据中心内的分布式训练
现代AI训练本质上是分布式的。研究表明,扩大数据、参数和计算规模能够显著提升模型性能,但单台机器已无法满足训练基础模型(参数达数十亿)的需求。行业普遍采用“集中式分布式”模式,在单一地点建设容纳数千GPU的数据中心,并通过超高速网络(如英伟达的NVLink或InfiniBand)互连。这些专用互联技术比标准网络快几个数量级,使所有GPU能够作为一个整体系统运行。
在此环境下,最常见的训练策略是数据并行,即将数据集拆分到多个GPU上。(其他方法如流水线并行或张量并行则将模型本身拆分到多个GPU上,适用于训练最大型模型,尽管实现复杂。)以下是使用小批量随机梯度下降(SGD)的一个训练步骤:
- 复制与分发:将模型副本加载到每个GPU上,将训练数据分割成小批量。
- 并行计算:每个GPU独立处理一个不同的小批量,并计算**梯度**——即调整模型参数的方向。
- 同步与聚合:所有GPU暂停工作,共享它们的梯度,并将其平均,以产生一个单一的、统一的更新量。
- 更新:将这个平均后的更新量应用到每个GPU的模型副本上,确保所有副本保持完全一致。
- 重复:移至下一个小批量,重新开始。
这一过程依赖频繁通信,只有在数据中心内部昂贵、高速的连接下才可行。这种对频繁同步的依赖,是集中式分布式训练的典型特征。
2. 撞上南墙:巨大的通信瓶颈
为了训练最大的模型,组织需要在不同城市或大洲建立多个数据中心。然而,地理上的分隔带来了巨大障碍。那种在数据中心内运行良好的逐步同步算法,当扩展到全球范围时便失效了。
问题的核心在于网络速度。数据中心内部的InfiniBand传输速度可达400 Gb/s或更高,而连接远程数据中心的广域网(WAN)速度通常接近1 Gbps。这种几个数量级的性能差距源于距离和成本的基本限制。小批量SGD所假设的近乎瞬时的通信与这一现实格格不入。
这种差异导致了严重瓶颈。当模型参数必须在每一步后都进行同步时,强大的GPU大部分时间处于闲置状态,等待数据缓慢地穿越低速网络。结果是:AI社区无法利用全球范围内分布的海量计算资源——因为现有算法依赖高速、集中式的网络。
3. 算法转变:联邦优化
如果频繁通信是问题所在,那么解决方案就是减少通信。这一简单的见解引发了一场借鉴联邦学习技术的算法转变。联邦学习最初专注于在终端设备(如手机)上的去中心化数据上训练模型,同时保护隐私。其核心算法联邦平均(FedAvg)表明,通过允许每个设备在本地执行多次训练步骤后再发送更新,可以将所需的通信轮数减少几个数量级。
研究人员意识到,在同步间隔之间做更多独立工作这一原则,是解决地理分布式设置中性能瓶颈的理想方案。这导致了联邦优化(FedOpt)框架的出现,它采用双优化器方法,将本地计算与全局通信解耦。
该框架使用两种不同的优化器:
- 内部优化器(如标准SGD)在每个机器上运行,在其本地数据切片上执行多次独立的训练步骤。
- 外部优化器处理不频繁的全局同步。在经过多次本地步骤后,每个工作节点计算其模型参数的总变化量,这些变化被聚合起来用于调整下一周期的全局模型。
这种双优化器架构从根本上改变了训练动态。它不再是所有节点之间的频繁通信,而变成了一系列延长的、独立的计算期,之后跟随一个单一的聚合更新。
以下为联邦优化框架示意图:
图片来源:Charles, Z., et al. (2025). "Communication-Efficient Language Model Training Scales Reliably and Robustly: Scaling Laws for DiLoCo." arXiv:2503.09799
4. 突破性进展:DiLoCo证明其大规模可行性
答案以DiLoCo(分布式低通信)算法的形式出现,它证明了联邦优化对于大语言模型的实际可行性。DiLoCo提供了一套具体的、经过精心调优的方案,用于在低速网络上训练现代Transformer模型:
- 内部优化器:AdamW,在每个工作节点上运行多次本地训练步骤。
- 外部优化器:Nesterov动量,处理不频繁的全局更新。
实验表明,DiLoCo能够匹配完全同步的数据中心训练性能,同时将节点间的通信量减少高达500倍。这是通过互联网训练巨型模型可行的实践性证明。
开源实现OpenDiLoCo复现了原始结果,并利用Hivemind库将该算法集成到一个真正的点对点框架中。这一努力促成了多个组织的大规模预训练成功,展示了通过互联网预训练数十亿参数模型的可能性。
5. 前沿探索:先进技术与未来研究
DiLoCo的成功激发了新一轮的研究热潮,专注于进一步提升效率和规模。关键一步是DiLoCo缩放定律的发展,确立了DiLoCo的性能可随模型规模增长而稳健缩放。
为了处理更大规模的模型,研究人员扩展了DiLoCo的设计,例如结合流水线并行的DiLoCoX。此外,创新还包括流式DiLoCo(重叠通信和计算以隐藏网络延迟)和异步方法(防止单个慢速节点成为瓶颈)。
算法核心层面也出现了创新,例如新型内部优化器Muon催生了MuLoCo,允许将模型更新压缩到2比特且性能损失可忽略不计。
6. 信任挑战:开放网络中的治理
随着训练转向开放、无需许可的网络,信任问题浮现:参与者如何验证收到的更新是否合法?如何防止恶意行为?拜占庭容错和密码学技术(如零知识证明)正成为解决方案。
前瞻:一个新AI范式的黎明
从高墙耸立的数据中心到开放的互联网,这段旅程标志着人工智能创建方式的深刻转变。这场根植于联邦优化并由DiLoCo具体化的算法变革,证明了减少通信频率是关键。随着技术进步和信任挑战的解决,去中心化训练正从工程解决方案演变为更开放、协作和可访问的AI未来的基础支柱。
参考文献
McMahan, H. B., et al. (2017). Communication-Efficient Learning of Deep Networks from Decentralized Data. International Conference on Artificial Intelligence and Statistics (AISTATS).
Reddi, S., et al. (2021). Adaptive Federated Optimization. International Conference on Learning Representations (ICLR).
Jia, H., et al. (2021). Proof-of-Learning: Definitions and Practice. IEEE Symposium on Security and Privacy.
Ryabinin, Max, et al. (2023). Swarm parallelism: Training large models can be surprisingly communication-efficient. International Conference on Machine Learning (ICML).
Douillard, A., et al. (2023). DiLoCo: Distributed Low-Communication Training of Language Models.
Jaghouar, S., Ong, J. M., & Hagemann, J. (2024). OpenDiLoCo: An Open-Source Framework for Globally Distributed Low-Communication Training.
Jaghouar, S., et al. (2024). Decentralized Training of Foundation Models: A Case Study with INTELLECT-1.
Liu, B., et al. (2024). Asynchronous Local-SGD Training for Language Modeling.
Charles, Z., et al. (2025). Communication-Efficient Language Model Training Scales Reliably and Robustly: Scaling Laws for DiLoCo.
Douillard, A., et al. (2025). Streaming DiLoCo with overlapping communication: Towards a Distributed Free Lunch.
Psyche Team. (2025). Democratizing AI: The Psyche Network Architecture. Nous Research Blog.
Qi, J., et al. (2025). DiLoCoX: A Low-Communication Large-Scale Training Framework for Decentralized Cluster.
Sani, L., et al. (2025). Photon: Federated LLM Pre-Training. Proceedings of the Conference on Machine Learning and Systems (MLSys).
Thérien, B., et al. (2025). MuLoCo: Muon is a practical inner optimizer for DiLoCo.
Long, A., et al. (2025). Protocol Models: Scaling Decentralized Training with Communication-Efficient Model Parallelism.
免责声明:
1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险
2.本文版权归属原作所有,仅代表作者本人观点,不代币币情的观点或立场
快讯