Puntuación de Consistencia de Patrones
La métrica que mide qué tan cerca el código generado por agentes se adhiere a los Golden Samples y a los patrones de base de código establecidos.
Definición
La Puntuación de Consistencia de Patrones mide qué tan cerca el código generado por agentes se adhiere a los Golden Samples y a los patrones de base de código establecidos. A diferencia de la Tasa de Violación Arquitectónica, que verifica fallas de restricciones estrictas, esta puntuación evalúa dimensiones más suaves de la calidad del código: convenciones de nomenclatura, organización de archivos, patrones de manejo de errores, enfoques de registro y similitud estructural con implementaciones de referencia.
La puntuación se evalúa a través de tres métodos complementarios:
- Análisis estático automatizado — linters y reglas personalizadas que verifican las convenciones de nomenclatura, el orden de importación, la estructura de archivos y otros patrones verificables mecánicamente. Estos proporcionan una puntuación rápida y determinista en dimensiones que pueden expresarse como reglas.
- Evaluación LLM-as-a-Judge — un LLM secundario compara el código generado por agentes con los Golden Samples utilizando rúbricas estructuradas, puntuando dimensiones como la legibilidad, el uso idiomático y la similitud estructural. Consulte LLM-as-a-Judge para obtener detalles sobre este enfoque de evaluación.
- Muestreo de revisión humana — revisión manual periódica de una muestra aleatoria de la salida del agente, puntuado según la misma rúbrica utilizada por el juez LLM. Esto calibra la puntuación automatizada y detecta dimensiones que ni el análisis estático ni la evaluación LLM capturan de forma fiable.
La puntuación se normaliza a una escala de 0 a 1. Rangos objetivo:
- Por encima de 0.8 — los agentes siguen consistentemente los patrones establecidos. Los Golden Samples están actualizados y guían la generación de forma efectiva.
- 0.7 a 0.8 — aceptable pero con brechas identificables. Revise qué dimensiones específicas de patrones obtienen la puntuación más baja y actualice los Golden Samples o las entradas del Índice de Contexto relevantes.
- Por debajo de 0.7 — los Golden Samples necesitan actualización, o los Paquetes de Contexto no los incluyen consistentemente durante la ejecución del agente. Este nivel de puntuación típicamente indica que el material de referencia está obsoleto o que el proceso de ensamblaje de contexto está omitiendo referencias de patrones.
La Puntuación de Consistencia de Patrones se revisa durante la Auditoría de Límites mensual junto con la Tasa de Violación Arquitectónica. Juntas, estas dos métricas proporcionan al Arquitecto Principal de Sistemas una imagen completa de la integridad estructural: violaciones estrictas (cosas que rompen reglas) y desviaciones suaves (cosas que divergen de las convenciones).