GGML

Radar Tecnológico

Publicado : Sep 27, 2023

NO EN LA EDICIÓN ACTUAL

Este blip no está en la edición actual del Radar. Si ha aparecido en una de las últimas ediciones, es probable que siga siendo relevante. Si es más antiguo, es posible que ya no sea relevante y que nuestra valoración sea diferente hoy en día. Desgraciadamente, no tenemos el ancho de banda necesario para revisar continuamente los anuncios de ediciones anteriores del Radar. Entender más

Sep 2023

Evaluar

GGML es una librería de aprendizaje automático en C que permite la inferencia de CPU. Esta librería define un formato binario para distribuir modelos grandes de lenguaje (LLMs, por sus siglas en inglés). Para hacerlo, usa cuantificación digital, una técnica que permite que los LLMs ejecuten inferencia de CPU efectiva en hardware de consumo. GGML soporta varias estrategias de cuantificación digital (e.g., cuantificación de 4 bits, 5 bits, y 8 bits), cada una de las cuales ofrece diferentes relaciones coste-beneficio entre eficiencia y rendimiento. Una manera rápida de probar, ejecutar y construir aplicaciones con estos modelos de cuantificación, es un binding de Python llamado C Transformers. Se trata de un wrapper de Python sobre GGML que nos abstrae del repetitivo código necesario para ejecutar inferencia al proveer una API de alto nivel. Hemos usado estas librerías para construir pruebas de concepto y experimentos. Si estás valorando usar LLMs auto alojados, evalúe cuidadosamente estas librerías para su organización.