3.1 KiB
Para criar um agente "minúsculo" especializado na classificação de transações bancárias individuais no seu hardware Xeon E5-2699 v3, as melhores opções são modelos com menos de 3 bilhões de parâmetros, que oferecem latência quase instantânea e consumo de memória insignificante.
Aqui estão as recomendações baseadas no equilíbrio entre tamanho e precisão:
1. A Melhor Escolha "Tiny": Llama 3.2 1B Instruct (GGUF)
Este é atualmente o padrão-ouro para agentes de escala microscópica que precisam seguir instruções simples de classificação.
-
Uso de Recursos: Com quantização Q4, ele ocupa apenas entre 700 MB e 1 GB de RAM.
-
Desempenho no Xeon: A classificação de uma única transação (entrada curta) será processada em milissegundos na sua CPU, permitindo um throughput altíssimo se você precisar processar uma fila.
-
Capacidade: Ele é excelente para extração e classificação de texto, sendo capaz de identificar nomes de estabelecimentos e associá-los a categorias se você fornecer a lista no prompt.
2. A Opção "Minuscula": Qwen 2.5 0.5B
Se você busca o menor rastro computacional possível, o Qwen 0.5B é o modelo moderno mais eficiente para tarefas de mapeamento simples.
- Uso de Recursos: Consome menos de 400 MB de RAM.
- Ponto Forte: É ideal para ser embutido em pequenos contêineres Docker ou VMs com recursos mínimos.
- Limitação: Por ser extremamente pequeno, ele pode falhar em transações com nomes de comerciantes muito abreviados ou ambíguos que exijam mais "conhecimento de mundo".
3. O "Pequeno com Cérebro": Phi-4 Mini (3.8B)
Se a precisão for mais importante que o tamanho absoluto e as descrições bancárias forem muito complexas (ex: códigos internos de terminais), este modelo da Microsoft é a recomendação ideal.
- Uso de Recursos: Ocupa cerca de 2.3 GB a 3.5 GB de RAM.
- Vantagem: Ele possui uma capacidade de raciocínio lógico e matemático superior a modelos muito maiores, o que ajuda a "deduzir" a categoria de comerciantes obscuros através de lógica analítica.
Comparativo para Classificação Única
| Modelo | Parâmetros | RAM Est. (Q4) | Perfil de Uso |
|---|---|---|---|
| Qwen 2.5 0.5B | 0.5B | ~400 MB | Classificação ultra-rápida e simples. |
| Llama 3.2 1B | 1B | ~800 MB | O equilíbrio ideal para agentes "tiny". |
| Phi-4 Mini | 3.8B | ~2.5 GB | Máxima precisão em dados confusos. |
Dicas de Implementação para o seu Agente
-
Formato GGUF: Utilize o formato GGUF com o runner llama-cpp-python ou Ollama. Isso garantirá que o modelo rode perfeitamente na CPU do seu Xeon sem necessidade de GPU.
-
Prompt de Sistema Rígido: Como o modelo é pequeno, você deve ser explícito. Informe: "Você é um classificador. Categorias válidas: [Lista]. Entrada:. Saída: Apenas a categoria em JSON".
-
Memória de Baixo Custo: Como o contexto de uma transação é minúsculo (~50 tokens), você pode configurar a janela de contexto do agente para apenas 512 ou 1024 tokens, economizando ainda mais memória RAM.