Glossário
AvaliaçãoEm Alta

Guardrails

Regras ou modelos secundários leves projetados para bloquear entradas ou saídas inseguras em tempo real.

Definição

Guardrails são mecanismos de segurança, implementados como regras, classificadores ou modelos secundários, que monitoram e filtram as entradas e saídas de um LLM (large language model) em tempo real. Eles atuam como uma camada protetora entre os usuários e o modelo central, impedindo que conteúdo prejudicial, fora de tópico ou que viole políticas seja processado ou retornado.

Características principais dos guardrails incluem:

  1. Filtragem de Entrada: Guardrails escaneiam mensagens de usuário recebidas em busca de tentativas de prompt injection, solicitações prejudiciais, informações de identificação pessoal ou consultas fora do escopo antes que elas atinjam o modelo principal.

  2. Validação de Saída: Depois que o modelo gera uma resposta, os guardrails verificam se há conteúdo prejudicial, alegações alucinatórias, violações de política ou vazamentos de dados sensíveis antes que a resposta seja entregue ao usuário.

  3. Regras Programáveis: Desenvolvedores definem políticas de guardrail usando regras de linguagem natural, expressões regulares ou configuração estruturada. Frameworks como NVIDIA NeMo Guardrails permitem especificar limites conversacionais de forma declarativa.

  4. Classificadores Leves: Muitos sistemas de guardrail utilizam modelos classificadores pequenos e rápidos, treinados para detectar categorias específicas de conteúdo inseguro, rodando em paralelo com o modelo principal para minimizar o impacto na latência.

  5. Defesa em Profundidade: Guardrails complementam, em vez de substituir, o treinamento de segurança em nível de modelo. Sistemas de produção tipicamente aplicam várias verificações de guardrail em conjunto com o alinhamento RLHF e restrições de system prompt para proteção robusta.

As equipes frequentemente validam a eficácia dos guardrails através de um Eval Harness, executando suítes de testes adversariais para verificar se os filtros capturam entradas e saídas inseguras de forma consistente.

Última atualização: 3/11/2026