DeepSpeed é uma biblioteca Python que otimiza o deep learning distribuído tanto para treinamento quanto para inferência. Para o treinamento, ela integra tecnologias como o Zero Redundancy Optimizer (ZeRO) e o paralelismo 3D para escalar modelos de forma eficiente em milhares de GPUs. Para a inferência, ela combina paralelismo de tensor, de pipeline, de expert e ZeRO com kernels customizados e otimizações de comunicação para minimizar a latência. O DeepSpeed potencializou alguns dos maiores modelos de linguagem do mundo, incluindo o Megatron-Turing NLG (530B) e o BLOOM (176B). Ele suporta tanto modelos densos quanto esparsos, entrega alta taxa de transferência do sistema e permite o treinamento ou a inferência em múltiplas GPUs com recursos restritos. A biblioteca se integra de forma transparente com as populares Hugging Face Transformers, PyTorch Lightning e Accelerate, tornando-se uma opção altamente eficaz para workloads de deep learning de grande escala ou com recursos limitados.