Guardrails

Los Guardrails son mecanismos de seguridad, implementados como reglas, clasificadores o modelos secundarios, que monitorean y filtran las entradas y salidas de un gran modelo de lenguaje (LLM) en tiempo real. Actúan como una capa protectora entre los usuarios y el modelo central, evitando que el contenido dañino, fuera de tema o que infrinja las políticas sea procesado o devuelto.

Características clave de los guardrails incluyen:

Filtrado de Entradas: Los Guardrails escanean los mensajes de usuario entrantes en busca de intentos de prompt injection, solicitudes dañinas, información de identificación personal o consultas fuera de alcance antes de que lleguen al modelo principal.
Validación de Salidas: Después de que el modelo genera una respuesta, los guardrails verifican si hay contenido dañino, afirmaciones alucinadas, violaciones de políticas o fugas de datos sensibles antes de que la respuesta sea entregada al usuario.
Reglas Programables: Los desarrolladores definen las políticas de guardrails utilizando reglas en lenguaje natural, expresiones regulares o configuraciones estructuradas. Marcos como NVIDIA NeMo Guardrails permiten especificar límites conversacionales de forma declarativa.
Clasificadores Ligeros: Muchos sistemas de guardrails utilizan modelos clasificadores pequeños y rápidos entrenados para detectar categorías específicas de contenido inseguro, ejecutándose en paralelo con el modelo principal para minimizar el impacto en la latencia.
Defensa en Profundidad: Los Guardrails complementan, en lugar de reemplazar, el entrenamiento de seguridad a nivel del modelo. Los sistemas de producción suelen superponer múltiples verificaciones de guardrails junto con la alineación RLHF y las restricciones del system prompt para una protección robusta.

Los equipos a menudo validan la efectividad de los guardrails a través de un Eval Harness, ejecutando suites de pruebas adversarias para verificar que los filtros detecten entradas y salidas inseguras de manera consistente.

Guardrails

Definición