Technology Radar

GGML

Publicado : Sep 27, 2023

NÃO ENTROU NA EDIÇÃO ATUAL

Este blip não está na edição atual do Radar. Se esteve em uma das últimas edições, é provável que ainda seja relevante. Se o blip for mais antigo, pode não ser mais relevante e nossa avaliação pode ser diferente hoje. Infelizmente, não conseguimos revisar continuamente todos os blips de edições anteriores do Radar. Saiba mais

Sep 2023

Avalie

GGML é uma biblioteca C para aprendizado de máquina que permite a inferência de CPU. Essa biblioteca define um formato binário para a distribuição de modelos de linguagem de grande porte (LLMs). Para fazer isso ela utiliza quantização, uma técnica que permite que os LLMs sejam executados em um hardware de consumo com inferência de CPU eficaz. A GGML suporta diferentes estratégias de quantização (por exemplo, quantização 4 bits, 5 bits, e 8 bits), e para cada uma oferece diferentes trade-offs entre eficiência e desempenho. Uma maneira rápida de testar, executar e desenvolver aplicativos com esses modelos quantizados é uma binding Python chamado C Transformers. Este é um wrapper Python no topo do GGML que elimina o código boilerplate para inferência, fornecendo uma API de alto nível. Exploramos essas bibliotecas para construir provas de conceito e experimentos. Se você estiver considerando LLMs auto-hospedados, avalie de forma cautelosa essas bibliotecas apoiadas pela comunidade para a sua organização.