Enable javascript in your browser for better experience. Need to know to enable it? Go here.
Última actualización : Nov 05, 2025
Nov 2025
Probar ?

DeepEval es un framework de evaluación de código abierto basado en Python para medir el rendimiento de los LLMs. Puede utilizarse para evaluar la generación mejorada por recuperación (RAG) y otras aplicaciones desarrolladas con frameworks como LlamaIndex o LangChain, así como para establecer líneas base y realizar comparaciones de modelos. DeepEval va más allá de las métricas basadas en coincidencia de palabras, evaluando precisión, relevancia y consistencia para ofrecer resultados de evaluación más confiables en escenarios reales. Incluye métricas como detección de alucinaciones, relevancia de respuestas y optimización de hiperparámetros, y admite GEval para crear métricas personalizadas adaptadas a cada caso de uso. Nuestros equipos utilizan DeepEval para ajustar los resultados agénticos mediante la técnica LLM como juez. Se integra con pytest y con pipelines de CI/CD, lo que facilita su adopción y lo hace valioso para la evaluación continua. Para los equipos que desarrollan aplicaciones basadas en LLM en entornos regulados, Inspect AI, desarrollado por el UK AI Safety Institute, ofrece una alternativa con un enfoque más sólido en auditoría y cumplimiento.

Oct 2024
Evaluar ?

DeepEval Es un framework de evaluación de código abierto basado en Python, utilizado para evaluar el rendimiento de los LLM. Puedes usarlo para evaluar la generación aumentada por recuperación (RAG) y otros tipos de aplicaciones creadas con frameworks populares como LlamaIndex o LangChain. También sirve para establecer líneas base y benchmark al comparar diferentes modelos de acuerdo a tus necesidades. DeepEval proporciona un conjunto completo de métricas y funciones para evaluar el rendimiento de los LLM, incluida la detección de alucinaciones, la relevancia de las respuestas y la optimización de híper parámetros. Ofrece integración con pytest y, junto con sus aserciones, puedes fácilmente integrar el conjunto de pruebas en un pipeline de integración continua (CI). Si trabajas con LLM, considera probar DeepEval para mejorar tu proceso de pruebas y garantizar la fiabilidad de tus aplicaciones.

Publicado : Oct 23, 2024

Descarga el PDF

 

 

 

English | Español | Português | 中文

Suscríbete al boletín del Radar Tecnológico

 

 

 

 

Suscríbete ahora

Visita nuestro archivo para leer los volúmenes anteriores