Publicado : Nov 05, 2025
Nov 2025
Avalie
O AutoRound da Intel é um algoritmo de quantização avançado para compressão de grandes modelos de IA, como LLMs e modelos de linguagem e visão (VLMs), com perda mínima de acurácia. Ele reduz o tamanho do modelo para larguras de bit ultrabaixas (2–4 bits) usando otimização por gradiente descendente de sinal e aplica larguras de bit mistas entre as camadas para uma eficiência ótima. Esse processo de quantização também é notavelmente rápido: você pode quantizar um modelo de 7 bilhões de parâmetros em apenas alguns minutos em uma única GPU. Como o AutoRound se integra com motores de inferência populares, como o vLLM e o Transformers, ele é uma opção atraente para a quantização de modelos.