minions-ai-agents/docs/tasks/athena/athena_task_2_1_guardrail.md

887 B

Task 2.1: Ferramenta de Guardrail (Llama Guard)

Contexto: Gateway e Governança

Objetivo

Implementar o verificador de toxicidade usando Llama Guard.

Saída Esperada

  • src/governance/guardrail.py: Módulo Python contendo a lógica de guardrail.

Instruções

  1. Criar Classe SafetyGuard: Implementar a classe SafetyGuard em src/governance/guardrail.py.
  2. Implementar check_safety: Criar o método check_safety(query: str) -> dict.
  3. Integração com LLM: Implementar a chamada ao LLM (via Ollama ou LiteLLM) utilizando o prompt específico do Llama Guard.
  4. Estrutura de Retorno: O método deve retornar um dicionário no formato: {"is_safe": bool, "risk_category": str, "score": float}.
  5. Mock para Testes: Incluir lógica de fallback ou mock caso o modelo não esteja disponível localmente durante o desenvolvimento/testes iniciais.