Enable javascript in your browser for better experience. Need to know to enable it? Go here.
Última actualización : Nov 05, 2025
Nov 2025
Evaluar ?

Usar un LLM como juez para evaluar la salida de otro sistema, generalmente un productor basado en LLM, ha ganado atención por su potencial de ofrecer una evaluación automatizada y escalable en inteligencia artificial generativa. Sin embargo, movemos este tema de Trial a Assess para reflejar las nuevas complejidades y riesgos identificados. Si bien esta técnica ofrece velocidad y escala, a menudo falla como sustituto confiable del juicio humano. Las evaluaciones son propensas a sesgos de posición, sesgos de verbosidad y baja robustez. Un problema más grave es la contaminación por escala: Cuando se utiliza LLM como juez en pipelines de entrenamiento para el modelado de recompensas, puede introducir sesgos de autoafirmación, donde una familia de modelos favorece sus propias salidas y filtraciones de preferencias, difuminando la frontera entre entrenamiento y prueba. Estos defectos han generado resultados que inflan las métricas de rendimiento sin validez en el mundo real. Algunos estudios de investigación han realizado análisis más rigurosos sobre este patrón. Para contrarrestar estos problemas, estamos explorando técnicas mejoradas, como el uso de LLMs como jurado (empleando varios modelos para llegar a un consenso) o el razonamiento en cadena (chain-of-thought o CoT) durante la evaluación. Si bien estos métodos buscan aumentar la fiabilidad, también incrementan el costo y la complejidad. Recomendamos a los equipos tratar esta técnica con precaución, asegurando verificación humana, transparencia y supervisión ética antes de incorporar LLMs como jueces en flujos de trabajo críticos. El enfoque sigue siendo potente, pero menos maduro de lo que se creía.

Oct 2024
Probar ?

Varios sistemas que construimos comparten dos importantes características: ser capaces de responder una pregunta acerca de un conjunto de datos extenso y ser casi imposible de saber cómo se ha llegado a la solución. A pesar de esta opacidad nosotros aun queremos evaluar y mejorar la calidad de las respuestas. Con el patrón LLM como juez , nosotros usamos LLM para evaluar la respuesta de otro sistema, que a su vez podría estar basado en un LLM. Hemos visto este patrón ser usado para determinar la relevancia de los resultados de búsqueda en un catálogo de productos y evaluar si un chatbot basado en LLM estaba guiando a los usuarios en una dirección sensata. Naturalmente, el sistema evaluador debe estar configurado y calibrado de manera cuidadosa. Puede generar ganancias significativas en eficiencia, lo que, a su vez, se traduce en costos más bajos. Esta es una área de investigación en curso, con un estado actualizado y resumido en este artículo.

Publicado : Oct 23, 2024

Descarga el PDF

 

 

 

English | Español | Português 

Suscríbete al boletín del Radar Tecnológico

 

 

 

 

Suscríbete ahora

Visita nuestro archivo para leer los volúmenes anteriores