minions-ai-agents/docs/Agente Minúsculo Para Trans...

3.1 KiB

Para criar um agente "minúsculo" especializado na classificação de transações bancárias individuais no seu hardware Xeon E5-2699 v3, as melhores opções são modelos com menos de 3 bilhões de parâmetros, que oferecem latência quase instantânea e consumo de memória insignificante.

Aqui estão as recomendações baseadas no equilíbrio entre tamanho e precisão:

1. A Melhor Escolha "Tiny": Llama 3.2 1B Instruct (GGUF)

Este é atualmente o padrão-ouro para agentes de escala microscópica que precisam seguir instruções simples de classificação.

  • Uso de Recursos: Com quantização Q4, ele ocupa apenas entre 700 MB e 1 GB de RAM.

  • Desempenho no Xeon: A classificação de uma única transação (entrada curta) será processada em milissegundos na sua CPU, permitindo um throughput altíssimo se você precisar processar uma fila.

  • Capacidade: Ele é excelente para extração e classificação de texto, sendo capaz de identificar nomes de estabelecimentos e associá-los a categorias se você fornecer a lista no prompt.

2. A Opção "Minuscula": Qwen 2.5 0.5B

Se você busca o menor rastro computacional possível, o Qwen 0.5B é o modelo moderno mais eficiente para tarefas de mapeamento simples.

  • Uso de Recursos: Consome menos de 400 MB de RAM.
  • Ponto Forte: É ideal para ser embutido em pequenos contêineres Docker ou VMs com recursos mínimos.
  • Limitação: Por ser extremamente pequeno, ele pode falhar em transações com nomes de comerciantes muito abreviados ou ambíguos que exijam mais "conhecimento de mundo".

3. O "Pequeno com Cérebro": Phi-4 Mini (3.8B)

Se a precisão for mais importante que o tamanho absoluto e as descrições bancárias forem muito complexas (ex: códigos internos de terminais), este modelo da Microsoft é a recomendação ideal.

  • Uso de Recursos: Ocupa cerca de 2.3 GB a 3.5 GB de RAM.
  • Vantagem: Ele possui uma capacidade de raciocínio lógico e matemático superior a modelos muito maiores, o que ajuda a "deduzir" a categoria de comerciantes obscuros através de lógica analítica.

Comparativo para Classificação Única

Modelo Parâmetros RAM Est. (Q4) Perfil de Uso
Qwen 2.5 0.5B 0.5B ~400 MB Classificação ultra-rápida e simples.
Llama 3.2 1B 1B ~800 MB O equilíbrio ideal para agentes "tiny".
Phi-4 Mini 3.8B ~2.5 GB Máxima precisão em dados confusos.

Dicas de Implementação para o seu Agente

  1. Formato GGUF: Utilize o formato GGUF com o runner llama-cpp-python ou Ollama. Isso garantirá que o modelo rode perfeitamente na CPU do seu Xeon sem necessidade de GPU.

  2. Prompt de Sistema Rígido: Como o modelo é pequeno, você deve ser explícito. Informe: "Você é um classificador. Categorias válidas: [Lista]. Entrada:. Saída: Apenas a categoria em JSON".

  3. Memória de Baixo Custo: Como o contexto de uma transação é minúsculo (~50 tokens), você pode configurar a janela de contexto do agente para apenas 512 ou 1024 tokens, economizando ainda mais memória RAM.