LLM-as-a-Judge

LLM-as-a-Judge es una metodología de evaluación donde un potente modelo de lenguaje grande (LLM) se utiliza para evaluar la calidad de las salidas producidas por otros modelos o sistemas. En lugar de depender exclusivamente de anotadores humanos o métricas tradicionales como BLEU o ROUGE, este enfoque aprovecha la comprensión del lenguaje de un LLM para proporcionar evaluaciones escalables y matizadas.

Las características clave de LLM-as-a-Judge incluyen:

Evaluación Escalable: La evaluación humana es costosa y lenta. Utilizar un LLM como juez permite evaluar miles de salidas de forma rápida y consistente, haciéndolo práctico para la integración continua (CI) y la experimentación rápida.
Calificación Basada en Rúbricas: Típicamente, a los jueces se les proporcionan rúbricas de calificación detalladas que definen criterios como la utilidad, precisión, seguridad y coherencia. El modelo luego califica las salidas según estos criterios, a menudo proporcionando explicaciones para sus calificaciones.
Comparación por Pares: Un patrón común implica mostrar al juez dos respuestas candidatas y preguntar cuál es mejor. Este juicio relativo es a menudo más fiable que la calificación absoluta y es útil para la recopilación de datos de preferencia.
Sesgo de Posición: Los jueces LLM pueden exhibir sesgos sistemáticos, como preferir la primera respuesta en un par o favorecer respuestas verbosas. Las mitigaciones incluyen la aleatorización del orden de presentación y la calibración contra juicios humanos.
Metaevaluación: La fiabilidad de los sistemas LLM-as-a-Judge se valida midiendo la concordancia con anotadores humanos, logrando típicamente tasas de concordancia del 80-85% en tareas bien definidas.

En la práctica, LLM-as-a-Judge a menudo se integra en un Eval Harness para ejecutar suites de evaluación automatizadas a través de versiones de modelos y cambios de prompt.

LLM-as-a-Judge

Definición