Enable javascript in your browser for better experience. Need to know to enable it? Go here.
Atualizado em : Apr 15, 2026
Apr 2026
Experimente ?

O DeepEval é um framework baseado em Python e de código aberto para avaliar o desempenho de LLMs. Ele pode ser usado para avaliar sistemas de geração aumentada por recuperação (RAG) e aplicações construídas com frameworks como LlamaIndex ou LangChain, bem como para fazer o baseline e o benchmarking de modelos. O DeepEval vai além de métricas simples de correspondência de palavras, avaliando precisão, relevância e consistência para fornecer uma avaliação mais confiável em cenários do mundo real. Ele inclui capacidades como detecção de alucinação, pontuação de relevância de resposta e otimização de hiperparâmetros. Um recurso que nossos times acharam particularmente útil é que ele permite definir métricas personalizadas e específicas para cada caso de uso. Recentemente, o DeepEval se expandiu para suportar workflows complexos de agentes e sistemas conversacionais de múltiplos turnos. Além de avaliar os resultados finais, ele fornece métricas integradas para corretude da ferramenta, eficiência da etapa e conclusão da tarefa, incluindo a avaliação de interações com servidores MCP. Ele também introduz a simulação de conversas para gerar casos de teste automaticamente e fazer testes de estresse em aplicações de múltiplos turnos em escala.

Nov 2025
Experimente ?

DeepEval é um framework de avaliação de código aberto, baseado em Python, para aferir a performance de LLMs. Ele pode ser usado para avaliar a geração aumentada por recuperação (RAG) e outras aplicações construídas com frameworks como LlamaIndex ou LangChain, bem como para fazer o baseline e o benchmark de modelos. O DeepEval vai além das pontuações baseadas em correspondência de palavras, avaliando acurácia, relevância e consistência para fornecer uma avaliação mais confiável em cenários do mundo real. Ele inclui métricas como detecção de alucinações, relevância da resposta e otimização de hiperparâmetros, e suporta o GEval para a criação de métricas customizadas e específicas para o caso de uso. Nossos times estão usando o DeepEval para fazer o ajuste fino (fine-tuning) das saídas de agentes usando a técnica de LLM como juiz. Ele se integra com o pytest e pipelines de CI/CD, tornando-o fácil de adotar e valioso para a avaliação contínua. Para times que desenvolvem aplicações baseadas em LLM em ambientes regulados, o Inspect AI, desenvolvido pelo Instituto de Segurança de IA do Reino Unido, oferece uma alternativa com um foco mais forte em auditoria e conformidade.

Oct 2024
Avalie ?

DeepEval é um framework de código aberto, baseado em Python, de avaliação do desempenho de LLMs. Você pode utilizar para avaliar a geração aumentada por recuperação (RAG) e outros tipos de aplicativos feitos com frameworks populares como LlamaIndex ou LangChain, bem como para estabelecer uma linha de base e benchmark quando você está comparando diferentes modelos para as suas necessidades. DeepEval oferece um conjunto abrangente de métricas e recursos para avaliar o desempenho de LLMs, incluindo detecção de alucinação, relevância de respostas e otimização de hiperparâmetros. Ele oferece integração com pytest e, além dessas asserções, você pode facilmente integrar a suíte de testes em uma pipeline de integração contínua. Se você está trabalhando com LLMs, considere experimentar o DeepEval para melhorar seu processo de testes e garantir a confiabilidade de suas aplicações.

Publicado : Oct 23, 2024

Baixe o PDF

 

 

 

English | Português

Inscreva-se para receber a newsletter do Technology Radar

 

 

Seja assinante

 

 

Visite nosso arquivo para acessar os volumes anteriores