Guardrails

Guardrails são mecanismos de segurança, implementados como regras, classificadores ou modelos secundários, que monitoram e filtram as entradas e saídas de um LLM (large language model) em tempo real. Eles atuam como uma camada protetora entre os usuários e o modelo central, impedindo que conteúdo prejudicial, fora de tópico ou que viole políticas seja processado ou retornado.

Características principais dos guardrails incluem:

Filtragem de Entrada: Guardrails escaneiam mensagens de usuário recebidas em busca de tentativas de prompt injection, solicitações prejudiciais, informações de identificação pessoal ou consultas fora do escopo antes que elas atinjam o modelo principal.
Validação de Saída: Depois que o modelo gera uma resposta, os guardrails verificam se há conteúdo prejudicial, alegações alucinatórias, violações de política ou vazamentos de dados sensíveis antes que a resposta seja entregue ao usuário.
Regras Programáveis: Desenvolvedores definem políticas de guardrail usando regras de linguagem natural, expressões regulares ou configuração estruturada. Frameworks como NVIDIA NeMo Guardrails permitem especificar limites conversacionais de forma declarativa.
Classificadores Leves: Muitos sistemas de guardrail utilizam modelos classificadores pequenos e rápidos, treinados para detectar categorias específicas de conteúdo inseguro, rodando em paralelo com o modelo principal para minimizar o impacto na latência.
Defesa em Profundidade: Guardrails complementam, em vez de substituir, o treinamento de segurança em nível de modelo. Sistemas de produção tipicamente aplicam várias verificações de guardrail em conjunto com o alinhamento RLHF e restrições de system prompt para proteção robusta.

As equipes frequentemente validam a eficácia dos guardrails através de um Eval Harness, executando suítes de testes adversariais para verificar se os filtros capturam entradas e saídas inseguras de forma consistente.

Guardrails

Definição