Glossário
AvaliaçãoEm Alta

LLM-as-a-Judge

Utilizando um modelo altamente capaz para classificar e avaliar as saídas de outros modelos.

Definição

LLM-as-a-Judge é uma metodologia de avaliação onde um poderoso grande modelo de linguagem (LLM) é utilizado para avaliar a qualidade das saídas produzidas por outros modelos ou sistemas. Em vez de depender exclusivamente de anotadores humanos ou métricas tradicionais como BLEU ou ROUGE, esta abordagem aproveita a compreensão de linguagem de um LLM para fornecer avaliações escaláveis e nuances.

As principais características do LLM-as-a-Judge incluem:

  1. Avaliação Escalável: A avaliação humana é cara e lenta. Usar um LLM como juiz permite avaliar milhares de saídas de forma rápida e consistente, tornando-o prático para CI/CD (continuous integration) e experimentação rápida.

  2. Pontuação Baseada em Rubrica: Os juízes são tipicamente fornecidos com rubricas de pontuação detalhadas que definem critérios como utilidade, precisão, segurança e coerência. O modelo então pontua as saídas em relação a esses critérios, frequentemente fornecendo explicações para suas classificações.

  3. Comparação Pareada: Um padrão comum envolve mostrar ao juiz duas respostas candidatas e perguntar qual é a melhor. Este julgamento relativo é frequentemente mais confiável do que a pontuação absoluta e é útil para a coleta de dados de preferência.

  4. Viés de Posição: Os juízes LLM podem exibir vieses sistemáticos, como preferir a primeira resposta em um par ou favorecer respostas prolixas. As mitigações incluem a randomização da ordem de apresentação e a calibração em relação aos julgamentos humanos.

  5. Meta-Avaliação: A confiabilidade dos sistemas LLM-as-a-Judge é validada medindo a concordância com anotadores humanos, tipicamente alcançando taxas de concordância de 80-85% em tarefas bem definidas.

Na prática, LLM-as-a-Judge é frequentemente integrado a um Eval Harness para executar suítes de avaliação automatizadas em diferentes versões de modelo e mudanças de prompt.

Última atualização: 3/11/2026