DeepSpeed es una biblioteca de Python que optimiza el aprendizaje profundo distribuido tanto para entrenamiento como para inferencia. Durante el entrenamiento, integra tecnologías como el Zero Redundancy Optimizer (ZeRO) y el paralelismo 3D para escalar modelos de manera eficiente en miles de GPU. En la inferencia, combina paralelismo de tensores, de pipelines, de expertos y ZeRO con núcleos personalizados y optimizaciones de comunicación para reducir la latencia. DeepSpeed ha impulsado algunos de los modelos de lenguaje más grandes del mundo, como Megatron-Turing NLG (530B) y BLOOM (176B). Admite modelos densos y dispersos, ofrece un alto rendimiento del sistema y permite realizar entrenamiento o inferencia en múltiples GPU con recursos limitados. La biblioteca se integra fácilmente con frameworks populares como Hugging Face Transformers, PyTorch Lightning y Accelerate, lo que la convierte en una opción altamente eficaz para cargas de trabajo de aprendizaje profundo a gran escala o con recursos restringidos.