minions-ai-agents/Agente Minúsculo Para Transações Bancárias.md at arthur-suporte-tecnico-n2

3.1 KiB

Raw Permalink Blame History

Para criar um agente "minúsculo" especializado na classificação de transações bancárias individuais no seu hardware Xeon E5-2699 v3, as melhores opções são modelos com menos de 3 bilhões de parâmetros, que oferecem latência quase instantânea e consumo de memória insignificante.

Aqui estão as recomendações baseadas no equilíbrio entre tamanho e precisão:

1. A Melhor Escolha "Tiny": Llama 3.2 1B Instruct (GGUF)

Este é atualmente o padrão-ouro para agentes de escala microscópica que precisam seguir instruções simples de classificação.

Uso de Recursos: Com quantização Q4, ele ocupa apenas entre 700 MB e 1 GB de RAM.
Desempenho no Xeon: A classificação de uma única transação (entrada curta) será processada em milissegundos na sua CPU, permitindo um throughput altíssimo se você precisar processar uma fila.
Capacidade: Ele é excelente para extração e classificação de texto, sendo capaz de identificar nomes de estabelecimentos e associá-los a categorias se você fornecer a lista no prompt.

2. A Opção "Minuscula": Qwen 2.5 0.5B

Se você busca o menor rastro computacional possível, o Qwen 0.5B é o modelo moderno mais eficiente para tarefas de mapeamento simples.

Uso de Recursos: Consome menos de 400 MB de RAM.
Ponto Forte: É ideal para ser embutido em pequenos contêineres Docker ou VMs com recursos mínimos.
Limitação: Por ser extremamente pequeno, ele pode falhar em transações com nomes de comerciantes muito abreviados ou ambíguos que exijam mais "conhecimento de mundo".

3. O "Pequeno com Cérebro": Phi-4 Mini (3.8B)

Se a precisão for mais importante que o tamanho absoluto e as descrições bancárias forem muito complexas (ex: códigos internos de terminais), este modelo da Microsoft é a recomendação ideal.

Uso de Recursos: Ocupa cerca de 2.3 GB a 3.5 GB de RAM.
Vantagem: Ele possui uma capacidade de raciocínio lógico e matemático superior a modelos muito maiores, o que ajuda a "deduzir" a categoria de comerciantes obscuros através de lógica analítica.

Comparativo para Classificação Única

Modelo	Parâmetros	RAM Est. (Q4)	Perfil de Uso
Qwen 2.5 0.5B	0.5B	~400 MB	Classificação ultra-rápida e simples.
Llama 3.2 1B	1B	~800 MB	O equilíbrio ideal para agentes "tiny".
Phi-4 Mini	3.8B	~2.5 GB	Máxima precisão em dados confusos.

Dicas de Implementação para o seu Agente

Formato GGUF: Utilize o formato GGUF com o runner llama-cpp-python ou Ollama. Isso garantirá que o modelo rode perfeitamente na CPU do seu Xeon sem necessidade de GPU.
Prompt de Sistema Rígido: Como o modelo é pequeno, você deve ser explícito. Informe: "Você é um classificador. Categorias válidas: [Lista]. Entrada:. Saída: Apenas a categoria em JSON".
Memória de Baixo Custo: Como o contexto de uma transação é minúsculo (~50 tokens), você pode configurar a janela de contexto do agente para apenas 512 ou 1024 tokens, economizando ainda mais memória RAM.

3.1 KiB Raw Permalink Blame History