【开源自荐】Colossal-AI - 高效的分布式人工智能训练系统

2023-12-18 487 views
1
项目推荐
  • 项目地址:https://github.com/hpcaitech/ColossalAI

  • 类别:Python,机器学习

  • 项目后续更新计划: 随着模型不断增大,训练大模型的需求将持续增加。Colossal-AI项目将持续探索多个前沿技术方向,为大模型训练提供最优选择: ○ 在模型并行方面,我们将继续探索新的模型并行方法,并支持最佳并行策略自动搜索。 ○ 在异构计算上,我们也将做新的尝试,更高效地利用GPU、CPU、内存以及硬盘等。 ○ 我们将针对大模型训练,探索新的内存/速度/通信优化策略。

  • 项目描述: Colossal-AI是一个高效的分布式人工智能训练系统,它作为深度学习框架的内核,能帮助用户在最大化提升人工智能训练效率的同时最小化训练成本。与英伟达的Megatron-LM相比,Colossal-AI仅需一半数量的GPU即可完成GPT-3训练,半小时预训练ViT-Base/32,2天训完15亿参数GPT模型。它提供自动超高维并行、大规模优化库、自适应任务调度、消除冗余内存、最新模型复现等前沿技术,简洁易用,是解放AI生产力的最佳选择。该项目一经开源,便迅速登上GitHub热榜Python方向世界第一。

  • 推荐理由: 业内主流的分布式训练方法有以下痛点 ○ 并行维度受限于3维,效率不高,GPU算力的峰值利用率最高只能达到30% ○ 模型分布式部署困难,需要高深专业背景知识和大量手动调优 ○ 通用性差,是定制化、与硬件直接整合的解决方案,无法在丰富的应用场景中实现快速部署。 针对这些痛点,Colossal-AI提供了一套功能强大、并行效率高、通用性强、低成本的高效训练方案,帮助适应快速迭代的算法和模型,将AI大模型以低成本便捷推广到更多应用场景中。

  • 示例代码:(可选)长度:1-20 行 colossalai.launch( config=my_config, rank=rank, world_size=world_size, backend='nccl', port=29500, host='localhost' ) engine, traindataloader, , _ = colossalai.initialize( model=model, optimizer=optimizer, criterion=criterion, train_dataloader=train_dataloader )

  • 截图:(可选)gif/png/jpg

    image

    模型参数量爆发式增长,增大了市场对算力的需求

    image

    Colossal-AI

回答