Arnés de Evaluación

El Arnés de Evaluación (Eval Harness) es el conjunto de pruebas automatizado que se ejecuta continuamente durante la ejecución del agente, validando cada salida antes de que llegue a un revisor humano. Combina pruebas funcionales, escaneos de seguridad, comprobaciones de conformidad arquitectónica y evaluaciones LLM-as-a-Judge en una puerta de calidad unificada. Ningún código generado por el agente se presenta a un humano hasta que pasa el Eval Harness.

El Eval Harness realiza dos tipos de validación:

Validación Determinista — comprobaciones binarias de aprobación/fallo basadas en reglas estrictas, incluyendo el conjunto de pruebas existente, comprobaciones de linter y formateador, escáneres de seguridad y reglas de conformidad arquitectónica.
Evaluación Probabilística — evaluaciones LLM-as-a-Judge para aspectos de calidad no deterministas como la legibilidad del código, la consistencia en la nomenclatura y la adherencia a las convenciones del proyecto.

Características operacionales clave:

Disyuntores de Circuito — el arnés aplica presupuestos de tokens y detiene la ejecución cuando un agente excede su asignación de cómputo para una sola tarea.
Registros de Ejecución — cada ejecución de evaluación produce registros detallados para depuración y observabilidad.
Activadores de Escalamiento — cuando la validación falla repetidamente, el arnés levanta una Bandera de Bloqueo que dirige la tarea a un operador humano.

El Eval Harness es la puerta de calidad automatizada principal en los flujos de trabajo con agentes, situándose entre la ejecución del agente y la revisión humana.

Arnés de Evaluación

Definición