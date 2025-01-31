Componentes técnicos de DeepSeek

R1 fue entrenado utilizando una combinación de SFT y RL sobre V3-Base. Son transformadores altamente optimizados para marcos de hardware y software específicos, basados en las limitaciones impuestas por el entorno (particularmente los controles de exportación del gobierno de EE.UU. sobre los chips NVIDIA H100). DeepSeek también ha combinado técnicas nuevas y antiguas de formas interesantes. Comencemos analizando V3-Base.

V3-Base utiliza un enfoque sólido de mezcla de expertos. Es similar a Mixtral, pero más eficiente. V3-Base fue entrenado con un total de 671B parámetros, mientras que Llama tiene una versión de 405B. Tanto V3-Base como Llama 3.1 405B utilizan cuantización FP8. V3-Base fue entrenado con 14.8T tokens, mientras que Llama fue entrenado con 15T tokens. Ambos admiten una ventana de contexto de 128K.

La diferencia clave es que el artículo de V3 menciona que solo se utilizaron 2.788M horas de GPU, mientras que la página de Llama 3.1 405B FP8 en Hugging Face informa 39.3M horas acumuladas de GPU. Aquí es donde radica la diferencia: según lo que entendemos, las 2.788M horas de GPU utilizadas para entrenar V3 corresponden únicamente a la última ejecución completa de entrenamiento, mientras que el número reportado por Llama es un acumulado. Los detalles sobre cómo interpretar exactamente estos datos surgirán con el tiempo, pero por ahora, aún no está claro si es posible hacer una comparación directa. Por ejemplo, V3 fue entrenado con algunos datos generados por un R1 que aún no había sido lanzado; ¿deberían los costos de entrenamiento calculados para V3 incluir también los costos de entrenamiento de R1 en ese caso?

R1 fue construido sobre V3-Base utilizando ajuste fino supervisado (SFT) y aprendizaje por refuerzo (RL) para desarrollar capacidades de razonamiento en el modelo. R1 utiliza el patrón de cadena de pensamiento extendida para realizar tareas de razonamiento. Posteriormente, R1 fue reducido a modelos densos más pequeños. Al igual que V3-Base, han publicado versiones basadas en Llama y Qwen. También han lanzado R1-Zero, que no utiliza SFT y tiene algunas limitaciones, como problemas de legibilidad y mezcla de idiomas, aunque presenta comportamientos de razonamiento intrigantes. Estas limitaciones hacen que R1-Zero sea probablemente más interesante para investigadores que para usuarios finales. Para superar estas limitaciones, aplicaron un entrenamiento en múltiples etapas y datos de arranque en frío antes de RL.

V3 se construyó utilizando datos generados por los patrones de razonamiento, verificación y reflexión de R1, mejorando aún más V3-Base para crear un modelo más completo, V3.

Todos estos modelos fueron entrenados utilizando GPUs NVIDIA H800. Estas son versiones de los chips H100 diseñadas para el mercado chino y están limitadas para cumplir con las restricciones de exportación de EE.UU. Específicamente, los chips H800 poseen la mitad de la velocidad de interconexión entre chips en comparación con los H100 (aproximadamente 400GB/s frente a 900GB/s en NVLink).

El costo reportado de entrenamiento de R1 es de 5.58M dólares. Sabemos que esto es incorrecto, pero no está claro en qué medida. El cálculo proviene del informe técnico de V3, que se refiere al costo de entrenamiento de DeepSeek V3. CNN lo informó correctamente al señalar que el costo era para el modelo base; sin embargo, no aclararon la diferencia entre ambos.

R1 fue entrenado sobre V3-Base, por lo que el costo acumulado de entrenamiento de R1 definitivamente es mayor que el del modelo base. Los números en la tabla uno del informe técnico de V3 parecen corresponder a una ejecución completa, probablemente la última. Si alguien intentara replicar el proceso de entrenamiento, probablemente necesitaría realizar más de una ejecución completa.

También hay informes contradictorios sobre el acceso de DeepSeek a 50,000 GPUs A100, lo que estaría más en línea con lo que se supone que OpenAI usó para entrenar GPT-4 (25,000 A100s).

Si hoy se alquilaran 50,000 GPUs A100 en EE.UU., el costo estimado sería de aproximadamente 1.35 dólares por hora por GPU (suponiendo que estuvieran disponibles). Esto equivaldría a unos 11.34M dólares por semana. En el caso de DeepSeek, parece que podrían haber utilizado GPUs adquiridas previamente por su fondo de inversión High-Flyer para fines de trading de alta frecuencia.