Publicado : Nov 05, 2025
Nov 2025
Evaluar
AutoRound de Intel es un algoritmo avanzado de cuantización diseñado para comprimir grandes modelos de IA, como LLMs y modelos de lenguaje-visual (VLMs), con una pérdida mínima de precisión. Reduce el tamaño del modelo a anchos de bit ultra bajos (2–4 bits) utilizando optimización por descenso de gradiente de signo y aplica anchos de bit mixtos entre capas para lograr una eficiencia óptima. Este proceso de cuantización también es notablemente rápido: es posible cuantizar un modelo de siete mil millones de parámetros en solo unos minutos con una única GPU. Dado que AutoRound se integra con motores de inferencia populares como vLLM y Transformers, es una opción atractiva para la cuantización de modelos.