Enable javascript in your browser for better experience. Need to know to enable it? Go here.
Publicado : Sep 27, 2023
NÃO ENTROU NA EDIÇÃO ATUAL
Este blip não está na edição atual do Radar. Se esteve em uma das últimas edições, é provável que ainda seja relevante. Se o blip for mais antigo, pode não ser mais relevante e nossa avaliação pode ser diferente hoje. Infelizmente, não conseguimos revisar continuamente todos os blips de edições anteriores do Radar. Saiba mais
Sep 2023
Assess ? Vale a pena explorar com o objetivo de compreender como isso afetará sua empresa.

GGML é uma biblioteca C para aprendizado de máquina que permite a inferência de CPU. Essa biblioteca define um formato binário para a distribuição de modelos de linguagem de grande porte (LLMs). Para fazer isso ela utiliza quantização, uma técnica que permite que os LLMs sejam executados em um hardware de consumo com inferência de CPU eficaz. A GGML suporta diferentes estratégias de quantização (por exemplo, quantização 4 bits, 5 bits, e 8 bits), e para cada uma oferece diferentes trade-offs entre eficiência e desempenho. Uma maneira rápida de testar, executar e desenvolver aplicativos com esses modelos quantizados é uma binding Python chamado C Transformers. Este é um wrapper Python no topo do GGML que elimina o código boilerplate para inferência, fornecendo uma API de alto nível. Exploramos essas bibliotecas para construir provas de conceito e experimentos. Se você estiver considerando LLMs auto-hospedados, avalie de forma cautelosa essas bibliotecas apoiadas pela comunidade para a sua organização.

Baixe o PDF

 

 

 

English | Español | Português | 中文

Inscreva-se para receber o boletim informativo Technology Radar

 

 

Seja assinante

 

 

Visite nosso arquivo para acessar os volumes anteriores