Enable javascript in your browser for better experience. Need to know to enable it? Go here.
Atualizado em : Nov 05, 2025
Nov 2025
Avalie ?

Usar um LLM como juiz — para avaliar a saída de outro sistema, geralmente um gerador baseado em LLM — tem chamado a atenção por seu potencial de oferecer avaliação automatizada e escalável em IA generativa. No entanto, estamos movendo este blip de Experimente para Avalie para refletir as complexidades e os riscos recém-reconhecidos. Embora essa técnica ofereça velocidade e escala, ela muitas vezes falha como um substituto confiável para o julgamento humano. As avaliações são propensas a viés de posição, viés de verbosidade e baixa robustez. Um problema mais sério é a contaminação de escala: quando o LLM como juiz é usado em pipelines de treinamento para modelagem de recompensa, ele pode introduzir um viés de auto-reforço — onde uma família de modelos favorece suas próprias saídas — e o vazamento de preferências, borrando a fronteira entre treinamento e teste. Essas falhas levaram a resultados super-ajustados que inflam as métricas de performance sem validade no mundo real. Há estudos que conduzem investigações mais rigorosas sobre esse padrão. Para combater essas falhas, estamos explorando técnicas aprimoradas, como o uso de LLMs como um júri (empregando múltiplos modelos para consenso) ou o raciocínio em cadeia de pensamento durante a avaliação. Embora esses métodos visam aumentar a confiabilidade, eles também aumentam o custo e a complexidade. Aconselhamos os times a tratar essa técnica com cautela — garantindo verificação humana, transparência e supervisão ética antes de incorporar juízes LLM em workflows críticos. A abordagem permanece poderosa, mas menos madura do que se acreditava anteriormente.

Oct 2024
Experimente ?

Muitos sistemas que construímos possuem duas características principais: serem capazes de prover uma resposta baseada em questões sobre um grande conjunto de dados e quase impossíveis de acompanhar como chegaram a essa resposta. Apesar desta opacidade, nós ainda queremos avaliar e melhorar a qualidade das respostas. Com o padrão de LLM como juíz, usamos uma LLM para avaliar as respostas de outros sistemas, que por sua vez pode ser baseado em um LLM. Notamos esse padrão ser utilizado para avaliar a relevância dos resultados de pesquisa em um catálogo de produtos e para avaliar quando um chatbot baseado em LLM guiou suas usuárias em uma direção sensata. Naturalmente, o sistema avaliador deve ser configurado e calibrado cuidadosamente. Isto pode gerar ganhos significativos, o que, por sua vez, se traduz em custos menores. Esta é uma área de pesquisa em andamento, tendo seu estado atual resumido neste artigo.

Publicado : Oct 23, 2024

Baixe o PDF

 

 

 

English | Español | Português | 中文

Inscreva-se para receber a newsletter do Technology Radar

 

 

Seja assinante

 

 

Visite nosso arquivo para acessar os volumes anteriores