Enable javascript in your browser for better experience. Need to know to enable it? Go here.
Publicado : Oct 23, 2024
NÃO ENTROU NA EDIÇÃO ATUAL
Este blip não está na edição atual do Radar. Se esteve em uma das últimas edições, é provável que ainda seja relevante. Se o blip for mais antigo, pode não ser mais relevante e nossa avaliação pode ser diferente hoje. Infelizmente, não conseguimos revisar continuamente todos os blips de edições anteriores do Radar. Saiba mais
Oct 2024
Avalie ?

DeepEval é um framework de código aberto, baseado em Python, de avaliação do desempenho de LLMs. Você pode utilizar para avaliar a geração aumentada por recuperação (RAG) e outros tipos de aplicativos feitos com frameworks populares como LlamaIndex ou LangChain, bem como para estabelecer uma linha de base e benchmark quando você está comparando diferentes modelos para as suas necessidades. DeepEval oferece um conjunto abrangente de métricas e recursos para avaliar o desempenho de LLMs, incluindo detecção de alucinação, relevância de respostas e otimização de hiperparâmetros. Ele oferece integração com pytest e, além dessas asserções, você pode facilmente integrar a suíte de testes em uma pipeline de integração contínua. Se você está trabalhando com LLMs, considere experimentar o DeepEval para melhorar seu processo de testes e garantir a confiabilidade de suas aplicações.

Baixe o PDF

 

 

 

English | Español | Português | 中文

Inscreva-se para receber a newsletter do Technology Radar

 

 

Seja assinante

 

 

Visite nosso arquivo para acessar os volumes anteriores