minions-ai-agents/docs/Criação de Agente IA Suport...

# **Arquitetura de Ecossistema Multi-Agente Soberano para Suporte Técnico de Nível 2: Integração com Zabbix, Memória Semântica e Flywheel de Dados para 2026**

O cenário da tecnologia da informação e da gestão de infraestrutura em 2026 consolidou a transição de modelos de inteligência artificial centralizados em nuvem para sistemas agênticos locais e soberanos. Esta mudança é impulsionada pela necessidade crítica de privacidade de dados, redução de custos operacionais e controle total sobre o ciclo de vida da informação técnica.1 No contexto do suporte técnico de Nível 2, a exigência não é mais apenas a resposta automatizada a perguntas frequentes, mas a criação de sistemas capazes de raciocínio lógico profundo, correlação de eventos em tempo real e uma integração simbiótica com ferramentas de monitoramento como o Zabbix.2 A proposta deste relatório técnico é detalhar a estrutura de um agente de IA especializado que opera exclusivamente em hardware local, utilizando uma arquitetura de memória semântica compartilhada para evitar a redundância de dados enquanto capitaliza o conhecimento adquirido em cada interação.1

A implementação de agentes soberanos para suporte técnico de Nível 2 exige uma reengenharia profunda dos componentes de inferência, memória e ação, especialmente em ambientes onde o processamento é restrito a Unidades Centrais de Processamento (CPU).1 O desafio de construir agentes que não dependam de APIs externas e que possam gerir infraestruturas críticas sem vazar dados institucionais para nuvens públicas representa um marco na engenharia de software contemporânea.1 Este relatório consolida as tendências tecnológicas de 2025 e 2026, integrando protocolos modernos como o Model Context Protocol (MCP) e técnicas avançadas de ajuste fino local para garantir que o agente se torne progressivamente mais eficiente e preciso.5

## **O Paradigma do Suporte Técnico de Nível 2 na Era da Agência Autônoma**

O suporte de Nível 2 caracteriza-se pela resolução de problemas técnicos mais complexos que ultrapassam o escopo de triagem inicial do Nível 1\.2 Em 2025, os agentes de IA cruzaram um limiar importante, evoluindo de meros assistentes de chat para sistemas que possuem agência real: a capacidade de planejar, agir e ajustar estratégias em loops de raciocínio contínuos.3 Enquanto os chatbots tradicionais apenas recuperavam informações de bases de conhecimento estáticas, os agentes modernos de Nível 2 são "colaboradores digitais" que podem owning processos repetitivos de ponta a ponta.7

A autonomia desses sistemas é classificada em níveis, assemelhando-se à evolução dos veículos autônomos. No Nível 1, temos a automação baseada em regras; no Nível 2, ações predefinidas onde a sequência é determinada dinamicamente por lógica de modelos de linguagem; e nos níveis superiores (3 e 4), sistemas que podem planejar, executar e adaptar-se com supervisão mínima.9 Para o suporte técnico, a meta em 2026 é atingir a autonomia parcial e total, onde o agente não apenas sugere uma solução, mas verifica o estado da infraestrutura via Zabbix, valida a causa raiz e, se autorizado, executa a remediação.9

| Característica | Automação Tradicional (Nível 1\) | Agente de IA Nível 2 (2026) |
| :---- | :---- | :---- |
| **Estilo de Interação** | Script fixo, se-então-senão. | Conversacional e baseado em intenção.11 |
| **Execução de Tarefas** | Cadeia linear de passos. | Loops de raciocínio ReAct (Pensar-Agir-Observar).1 |
| **Acesso a Dados** | Consultas SQL rígidas ou silos. | Busca semântica federada e Model Context Protocol.1 |
| **Capacidade de Aprendizado** | Nenhuma (exige reprogramação). | Flywheel de dados ativo e fine-tuning semanal.5 |
| **Tratamento de Erros** | Falha silenciosa ou exceção. | Diagnóstico de causa raiz e sugestão de correção.13 |

O impacto econômico e operacional dessa transição é mensurável. Estimativas sugerem que a IA generativa agêntica pode adicionar trilhões à economia global, enquanto no suporte técnico, a deflexão de tickets pode chegar a 60%, com tempos de resolução reduzidos em até 90%.9 O foco para 2026 não é apenas a inteligência do modelo, mas a orquestração eficiente de múltiplos modelos menores e especializados para automatizar fluxos complexos de ponta a ponta.15

## **Infraestrutura de Hardware Local: Maximizando o Xeon E5-2699 v3**

Para que a inteligência artificial permaneça soberana e operando 100% offline, a seleção e a otimização do hardware são os pilares fundamentais. O processador Intel Xeon E5-2699 v3, com seus 18 núcleos e 36 threads, embora pertença a uma geração anterior à 2026, ainda oferece uma base robusta para a execução de Small Language Models (SLMs) quando aliado a uma arquitetura de memória generosa, como os 128 GB de RAM DDR4 ECC especificados.16

O gargalo principal em sistemas local-only baseados em CPU não é a contagem de núcleos, mas a largura de banda da memória RAM. A inferência de Grandes Modelos de Linguagem (LLMs) é um processo intensivo em memória, onde cada parâmetro do modelo deve ser movido para o processador a cada geração de token.18 No Xeon E5-2699 v3, a largura de banda máxima teórica é de aproximadamente ![][image1] por CPU.16 Com um modelo de 8 bilhões de parâmetros (8B) quantizado em 4 bits (ocupando cerca de 5 GB em RAM), o throughput teórico pode ser estimado através da relação entre a largura de banda e o tamanho do modelo carregado.1

A viabilidade de executar modelos complexos em CPUs modernas foi catalisada pelo desenvolvimento de técnicas de quantização avançadas e frameworks de baixo nível como o llama.cpp e o vLLM.1 A quantização reduz a precisão dos pesos do modelo para inteiros de 4 ou 8 bits sem perda catastrófica de desempenho cognitivo, permitindo que modelos de alto desempenho habitem a memória de sistemas comuns.1 O formato GGUF (GPT-Generated Unified Format) tornou-se o padrão em 2025 para essas implementações, garantindo compatibilidade entre diferentes arquiteturas e sistemas operacionais.1

| Modelo Sugerido | Parâmetros | Uso de RAM Est. (Q4\_K\_M) | Throughput Estimado (Tokens/s) | Perfil de Suporte Técnico |
| :---- | :---- | :---- | :---- | :---- |
| Llama 3.2 1B | 1B | \~800 MB \- 1 GB | \>50 (Instantâneo) | Triagem inicial e extração de entidades.22 |
| Phi-3 Mini | 3.8B | \~2.3 GB \- 3.5 GB | 15 \- 20 | Raciocínio lógico e sumarização.1 |
| Llama 3.1 8B | 8B | \~7.2 GB \- 8.5 GB | 7 \- 10 | Agente generalista e especialista RAG.1 |
| Mistral 7B v0.3 | 7.2B | \~6.0 GB \- 7.0 GB | 8 \- 12 | Chatbots rápidos e classificação.1 |
| Qwen 2.5 7B | 7.6B | \~6.5 GB \- 7.5 GB | 8 \- 12 | Tool-use e geração de código de remediação.1 |

Para otimizar o desempenho em sistemas de dois sockets, é imperativo lidar com a latência introduzida pelo link QPI entre as CPUs. Recomenda-se configurar o BIOS para desativar o SNC (Sub-NUMA Clustering) ou utilizar ferramentas de controle de processo como o comando numactl \--interleave=all para distribuir a carga de memória uniformemente entre os canais disponíveis, evitando gargalos em processos específicos.16 Com 128 GB de RAM, o sistema pode manter entre 10 e 12 agentes de 8B parâmetros ativos simultaneamente, permitindo uma alta densidade de atendimento sem necessidade de swap de disco.16

## **Arquitetura de Memória Compartilhada e Persistência Semântica**

Um dos maiores obstáculos em sistemas multi-agentes independentes é o chamado "Problema da Amnésia", onde cada instância do agente opera em um contexto isolado e esquece as descobertas feitas por seus pares ou as interações anteriores.1 Para o suporte técnico de Nível 2, onde o conhecimento histórico é o ativo mais valioso, deve-se implementar uma camada de memória externa desacoplada da computação.1

Esta arquitetura divide a memória em esferas que garantem a eficiência e a não duplicação de dados:

1. **Memória Volátil de Curto Prazo:** Utiliza o módulo multiprocessing.shared\_memory do Python para troca de estado rápida entre processos de agentes que rodam na mesma máquina.1 Isso evita a sobrecarga de serialização e permite que o estado atual do sistema seja acessível instantaneamente por qualquer agente da equipe.1
2. **Memória Episódica (Histórico de Tickets):** Armazena o registro de conversas passadas e trilhas de decisão.1 A tecnologia recomendada para esta persistência em disco é o PostgreSQL com a extensão pgvector, que permite consultas rápidas sobre o que foi resolvido anteriormente para problemas similares.1
3. **Memória Semântica (Base de Conhecimento):** É aqui que reside o conhecimento institucional estruturado.1 O banco de dados vetorial Qdrant é a tecnologia de referência para execuções locais.1 Ele permite que os agentes salvem insights, resultados de buscas e documentação indexada em coleções vetoriais.1
4. **Memória de Fatos e Relacionamentos:** Utiliza Neo4j ou arquivos JSON para mapear a topologia da infraestrutura, relacionamentos entre servidores e dependências de serviços monitorados pelo Zabbix.1

### **Unificação de Embeddings e Espaço Vetorial**

Um requisito inegociável para a eficácia desta memória compartilhada é a unificação do espaço vetorial.1 Se diferentes agentes utilizarem modelos de embeddings distintos, os vetores resultantes estarão em espaços latentes incompatíveis, tornando a busca semântica falha.1 Portanto, força-se o uso de um único modelo de embedding local, como o sentence-transformers/all-MiniLM-L6-v2 ou o BGE-small-en-v1.5, que rodam eficientemente em CPU através de runtimes ONNX ou FastEmbed.1

Para gerenciar o volume massivo de dados de múltiplos clientes (multitenancy) no Qdrant sem esgotar a RAM, utiliza-se a estratégia de **Tiered Multitenancy**.5 Dados de novos clientes ou pequenos volumes são agrupados em shards compartilhados; quando um cliente atinge um volume crítico, seus dados são promovidos para um shard dedicado automaticamente.5 A configuração on\_disk: true para os vetores e inline\_storage: true no índice HNSW reduz as leituras de disco de 32 para apenas 1 em cada busca, acelerando drasticamente o Retrieval-Augmented Generation (RAG) em hardware Xeon.5

## **Integração Nativa com Zabbix via Model Context Protocol (MCP)**

O requisito fundamental de que a entrada de dados vinda do monitoramento seja consultada naturalmente, sem replicação desnecessária, é atendido através do uso do Model Context Protocol (MCP).5 O MCP funciona como uma interface padronizada que permite aos LLMs descobrirem e utilizarem ferramentas externas de forma agnóstica.5

Em vez de importar todos os dados do Zabbix para a memória semântica (o que geraria dados obsoletos rapidamente), o agente de IA atua como um cliente MCP.11 Quando o agente recebe um ticket sobre "alta latência no banco de dados", ele não procura em sua memória interna o que está acontecendo no momento; ele aciona a ferramenta Zabbix para consultar as métricas live.11

### **O Bridge de Inteligência e zabbix\_utils**

A arquitetura proposta utiliza um serviço intermediário (AI Server) que traduz linguagem natural em chamadas para a API JSON-RPC do Zabbix.11 A biblioteca Python zabbix\_utils é a base tecnológica para esta integração, permitindo que o agente interaja com o servidor Zabbix, proxies ou agentes de forma síncrona ou assíncrona.29

Abaixo, descreve-se como as principais funções do Zabbix são expostas como ferramentas para o agente:

| Método Zabbix API | Ferramenta Exposta ao Agente | Objetivo Técnico |
| :---- | :---- | :---- |
| **problem.get** | investigate\_active\_problems | Recuperar problemas não resolvidos e alertas recentes.31 |
| **history.get** | fetch\_item\_telemetry | Obter dados históricos de métricas específicas (CPU, RAM, disco).32 |
| **host.get** | identify\_infrastructure\_nodes | Identificar identificadores de host e metadados via nome.29 |
| **trigger.get** | analyze\_alert\_thresholds | Entender as condições que dispararam um alerta específico.29 |
| **script.execute** | perform\_remediation\_action | Executar scripts remotos para autorremediação assistida.33 |
| **maintenance.create** | schedule\_system\_maintenance | Criar janelas de manutenção via comando natural.34 |

Essa abordagem garante que o agente sempre trabalhe com a "Single Source of Truth" (Fonte Única da Verdade) do monitoramento, herdando as permissões e a frescura dos dados do sistema original sem a necessidade de sincronização manual de bases de dados.35

## **Lógica de Operação do Agente: O Loop ReAct Manual**

Na ausência de frameworks de orquestração pesados como o CrewAI, a inteligência do sistema reside na implementação de um ciclo cognitivo baseado no padrão ReAct (Reasoning and Acting).1 Este padrão instrui o modelo de linguagem a pensar antes de agir, decompondo tarefas complexas em passos menores e decidindo qual ferramenta utilizar em cada etapa.1

A anatomia do loop ReAct manual consiste em quatro fases cíclicas:

1. **Pensamento (Thought):** O agente analisa o chamado do usuário e o histórico de mensagens, formulando uma hipótese interna. Exemplo: "O usuário reporta lentidão. Vou verificar se há problemas de CPU ativos no host indicado no Zabbix".1
2. **Ação (Action):** O agente gera uma string estruturada (JSON) para chamar uma ferramenta externa. Exemplo: Action: zabbix\_get\_problems: {"host": "web-server-01"}.1
3. **Pausa (PAUSE):** O script Python intercepta a saída do LLM, executa o código correspondente à ferramenta (via zabbix\_utils) e captura o resultado.1
4. **Observação (Observation):** O resultado da ferramenta é injetado de volta no prompt do LLM como uma nova mensagem de sistema, permitindo que ele continue o raciocínio. Exemplo: "Observation: CPU Load at 98%. Possible cause: high traffic".1

Este ciclo se repete até que o LLM identifique que possui informações suficientes para fornecer a "Resposta Final" ou uma sugestão de solução concreta para o ticket.1 Modelos como o Phi-4 e o Qwen 2.5 demonstram superioridade nesta tarefa estruturada, reduzindo erros de sintaxe que poderiam interromper o loop do agente.1

## **O Flywheel de Dados: Aprendizado Contínuo e Fine-Tuning Local**

Para satisfazer o requisito de que o agente "ganhe mais conhecimento e se torne mais eficiente a cada nova consulta", implementa-se um pipeline de Aprendizado Ativo (Active Learning) denominado CLEAR (Confidence-based Evaluation) integrado ao framework Agent-in-the-Loop (AITL).5

### **O Ciclo de Evolução Cognitiva**

A inteligência do sistema não é estática; ela evolui através do feedback humano e da acumulação de experiências episódicas.40 O processo de evolução segue quatro pilares:

1. **Triagem por Confiança:** Quando o agente sugere uma solução, ele atribui um score de confiança interna. Se a confiança for inferior a 85%, o sistema sinaliza obrigatoriamente para a revisão de um técnico humano de Nível 2\.5
2. **Anotação de Fluxo Operacional:** Em vez de anotações offline, o feedback é capturado diretamente no workflow de suporte. O técnico avalia se a sugestão da IA foi correta, se o conhecimento recuperado foi relevante ou se faltou alguma informação crucial na base de conhecimento.12
3. **Reciclagem Periódica via LoRA:** Semanalmente, os novos dados confirmados (tickets resolvidos com sucesso e correções humanas) disparam um ajuste fino leve (Fine-tuning) utilizando a técnica LoRA (Low-Rank Adaptation).5 Esta técnica permite treinar menos de 1% dos parâmetros do modelo, reduzindo o uso de memória em até 70% e tornando o treinamento viável em CPUs Xeon em poucas horas.5
4. **Integração na Memória Episódica:** A solução confirmada é salva no Qdrant com uma etiqueta de "Padrão Confirmado".42 Na próxima vez que um problema similar ocorrer, o sistema recuperará este exemplo exato, permitindo que o agente diga: "No passado, este padrão de alerta no Zabbix foi resolvido com a ação X".43

Este Flywheel de Dados garante que o conhecimento técnico da organização não se perca com a rotatividade de funcionários, transformando cada chamado resolvido em um ativo permanente da inteligência corporativa.12

## **Consolidação de Dados da Internet (Últimos 6 Meses) e Tendências de 2026**

A integração de dados da web transforma o agente de um repositório estático em um assistente dinâmico capaz de lidar com vulnerabilidades zero-day e novas versões de software.1 Para manter a premissa de soberania, a busca web é realizada através de instâncias de metapesquisa auto-hospedadas como o SearXNG, que agrega resultados de múltiplos motores sem expor cookies ou identificadores dos agentes.1

As tendências consolidadas nos últimos 6 meses (segundo o horizonte de 2025-2026) indicam:

* **Zabbix 7.4 e IA Vision:** A nova versão do Zabbix introduziu pipelines de baixo custo para IA Vision, permitindo que o monitoramento se estenda a objetos físicos através de templates de visão computacional, os quais o agente de IA pode agora interpretar como métricas estruturadas.45
* **Protocolo MCP como Padrão:** O Model Context Protocol tornou-se o "USB-C para agentes", eliminando a necessidade de conectores customizados para cada sistema. O agente L2 pode agora "descobrir" novas ferramentas no Zabbix conforme novos templates são adicionados.5
* **Orquestração em Grafo (LangGraph):** O uso de máquinas de estado cíclicas substituiu as cadeias lineares, permitindo que o agente retorne a passos anteriores de diagnóstico caso a primeira sugestão de remediação falhe no Zabbix.23
* **Foco em Soberania de Dados:** 40% das aplicações corporativas integrarão agentes até o final de 2026, com uma preferência crescente por modelos open-source (Llama, DeepSeek) rodando localmente por questões regulatórias (GDPR/LGPD).9

## **PRD: Especificação Técnica do Produto (Agente IA de Suporte Nível 2\)**

Esta seção consolida os requisitos estruturais para a construção do ecossistema multi-agente soberano, baseada na documentação técnica de 2026\.27

### **1\. Visão Geral do Sistema**

O objetivo é construir uma infraestrutura local para execução de agentes de IA especializados em suporte de Nível 2 e monitoramento de infraestrutura. O sistema deve operar de forma 100% offline, possuir alta escalabilidade de memória vetorial e implementar um ciclo de aprendizado contínuo (Flywheel de Dados) que capitalize o conhecimento técnico da equipe.27

### **2\. Arquitetura de Hardware (Mínima Recomendada)**

* **Processador:** Intel Xeon E5-2699 v3 (18 núcleos / 36 threads).
* **Memória RAM:** 128 GB DDR4 ECC (Para suportar multitenancy e múltiplos agentes simultâneos).16
* **Armazenamento:** SSD NVMe com mínimo de 50k IOPS (Fundamental para performance do Qdrant em modo on-disk).18

### **3\. Stack Tecnológica de Software**

* **Inundação de Dados:** Python 3.11+.27
* **Backend de Inferência:** Ollama ou llama-cpp-python exposto via API compatível com OpenAI na porta 11434\.1
* **Orquestração de Agentes:** LangGraph para fluxos cíclicos de decisão.27
* **Validação de Dados:** PydanticAI para garantir integridade das saídas do modelo.5
* **Interface de Monitoramento de IA:** Langfuse (local) para rastreamento (tracing) de pensamentos e ações.18

### **4\. Requisitos Funcionais (FR)**

| ID | Requisito | Descrição Técnica |
| :---- | :---- | :---- |
| **FR01** | Integração Zabbix via MCP | O agente deve consultar problemas ativos (problem.get) e telemetria (history.get) em tempo real através do protocolo MCP.11 |
| **FR02** | Recuperação RAG Sem Duplicação | Implementar SQLRecordManager com hashing de conteúdo para garantir que a base de conhecimento não contenha duplicatas e seja atualizada incrementalmente.49 |
| **FR03** | Flywheel de Aprendizado CLEAR | O sistema deve marcar resoluções com baixa confiança para revisão humana e utilizar esses dados para fine-tuning LoRA semanal.5 |
| **FR04** | Memória Episódica Multitenant | Isolar memórias de diferentes departamentos ou clientes usando filtros de tenant\_id no payload do Qdrant.27 |
| **FR05** | Sugestão de Remediação Live | O agente deve ser capaz de redigir comandos de correção e, após aprovação, executá-los via Zabbix Script API.13 |

### **5\. Requisitos Não Funcionais (NFR)**

| ID | Requisito | Alvo/Métrica |
| :---- | :---- | :---- |
| **NFR01** | Soberania de Dados | 100% de execução local; nenhuma chamada para APIs de nuvem (Air-gapped compatible).1 |
| **NFR02** | Latência de Inferência | TTFT (Time To First Token) \< 200ms para modelos 1B; \< 800ms para modelos 8B.18 |
| **NFR03** | Precisão RAG | Scores de similaridade semântica \> 0.82 para considerar um documento como evidência válida.52 |
| **NFR04** | Estabilidade de Sistema | Isolamento de processos via Docker para que falhas em um agente não derrubem o orquestrador.23 |

### **6\. Casos de Uso Críticos do PRD**

#### **Caso de Uso A: Diagnóstico de Falha de Aplicação**

* **Entrada:** Chamado reportando "Lentidão no ERP".
* **Ação do Agente:** O agente aciona a ferramenta Zabbix para verificar a latência do disco no servidor de banco de dados. Identifica uma anomalia basal detectada pelo Zabbix.
* **Consulta de Memória:** O agente busca na memória semântica por "ajuste de parâmetros ERP" e encontra uma resolução passada sobre "locks de tabela excessivos".
* **Saída:** Sugere o comando de otimização de banco de dados e oferece o script de remediação para execução automática via Zabbix.11

#### **Caso de Uso B: Atualização Automática de Conhecimento**

* **Entrada:** Técnico de Nível 2 resolve um erro de certificado SSL novo e documenta o processo no ticket.
* **Processamento:** O agente captura a solução, o pipeline CLEAR valida a alta confiança pós-correção humana, e o novo conhecimento é injetado no flywheel.
* **Resultado:** No dia seguinte, para um chamado similar, o agente já sugere a solução do certificado sem intervenção humana adicional.5

## **Governança, Guardrails e Segurança Local**

Operar agentes com acesso a ferramentas de sistema e monitoramento introduz riscos significativos. A governança do sistema soberano é implementada em camadas para garantir que a IA permaneça "dentro da linha".1

### **Estratégia de Defesa em Profundidade**

1. **Llama Guard 3 1B:** Atua como a primeira linha de defesa, classificando as entradas dos usuários antes que elas ativem os processos de raciocínio mais pesados. Se uma consulta for identificada como perigosa (ex: "como desligar o firewall"), ela é bloqueada na periferia do sistema por um custo computacional insignificante.1
2. **Roteamento Semântico para Eficiência:** O sistema compara o vetor da consulta com um conjunto de "perguntas canônicas". Se a similaridade for inferior a 0.75, a consulta é considerada fora de domínio, economizando ciclos de CPU preciosos.1
3. **Validação Pydantic:** Todas as saídas estruturadas que interagem com o Zabbix são validadas por esquemas rígidos. O PydanticAI intercepta qualquer alucinação de comando, dispara um erro de validação interno e força o modelo a tentar novamente com uma mensagem explicativa.5
4. **Human-in-the-Loop (HITL):** Para ações de alto risco, como reiniciar servidores de produção ou deletar registros, utiliza-se o decorador @agent.tool para criar pontos de interrupção obrigatórios onde a aprovação de um supervisor humano é necessária antes da persistência na memória episódica.5

Esta arquitetura de governança assegura que a inteligência artificial não apenas resolva problemas, mas o faça de forma frugal, segura e auditável, mantendo a integridade da infraestrutura corporativa.1

## **Monitoramento e Visibilidade: AgentOps Local**

Diferente do monitoramento de infraestrutura tradicional, o gerenciamento de um ecossistema de agentes exige visibilidade sobre o "porquê" de cada decisão técnica tomada pela IA.18

### **Monitoramento Lógico (Langfuse)**

O Langfuse (ou Arize Phoenix), instalado localmente via Docker Compose, permite o rastreamento passo a passo de cada "Pensamento", "Ação" e "Observação" do agente.18 Isso é vital para depurar falhas onde o agente escolheu a ferramenta errada ou extraiu parâmetros incorretos do Zabbix.54 As métricas monitoradas incluem o consumo de tokens por chamado, a latência de cada etapa do loop ReAct e a precisão do RAG.18

### **Monitoramento de Infraestrutura (Zabbix Agent 2\)**

Para acompanhar o uso real de recursos, o próprio Zabbix é utilizado para monitorar o ecossistema de agentes. Recomenda-se o uso do **Zabbix Agent 2**, que possui plugins nativos para monitorar containers Docker e sockets do sistema.18

* **Monitoramento de CPU/RAM:** Itens como system.cpu.util e vm.memory.size garantem que o processamento simultâneo de múltiplos agentes não leve o Xeon v3 à exaustão.18
* **Métricas de GPU (Se aplicável):** Embora o foco seja CPU, o Zabbix pode monitorar o barramento de memória para identificar gargalos de throughput durante picos de chamados.18

## **Conclusões e Recomendações Estratégicas**

A estruturação de um agente de IA para suporte técnico de Nível 2 em uma infraestrutura soberana representa o ápice da autonomia tecnológica para organizações modernas. Ao integrar nativamente os dados do Zabbix através do protocolo MCP e implementar um flywheel de dados local, a empresa não apenas reduz seus custos operacionais, mas cria um sistema de capitalização de conhecimento resiliente e escalável.1

As recomendações finais para a implementação bem-sucedida incluem:

1. **Priorizar a Qualidade da Base de Conhecimento:** A precisão do agente é diretamente proporcional à qualidade do material fornecido. A limpeza de redundâncias e a estruturação em textos claros são pré-requisitos para um RAG eficaz.55
2. **Adotar o Protocolo MCP Imediatamente:** Não construir integrações ad-hoc para cada sistema; o padrão MCP garante que o ecossistema seja modular e que novas ferramentas de diagnóstico possam ser adicionadas sem reescrever o núcleo do agente.5
3. **Investir no Feedback dos Técnicos de Nível 2:** O aprendizado contínuo via CLEAR é o que transforma um bot de chat em um especialista de infraestrutura. O feedback humano deve ser tratado como o combustível primordial para o ajuste fino LoRA.5
4. **Otimização de Hardware:** Manter o Xeon E5-2699 v3 com 128 GB de RAM permite o escalonamento horizontal de agentes. O foco deve ser sempre a largura de banda da memória, utilizando quantização agressiva e modelos de tamanho adequado (8B) para garantir fluidez nas interações.16

Este roteiro técnico fornece a fundação para que a inteligência artificial deixe de ser uma ferramenta externa e se torne um ativo institucional central, protegendo a memória técnica da empresa e elevando a eficiência da infraestrutura a novos patamares de excelência operacional.1

#### **Referências citadas**

1. Agentes IA Locais com Memória Compartilhada
2. 5 support tier levels explained: How to set them up \- Zendesk, acessado em janeiro 28, 2026, [https://www.zendesk.com/blog/set-support-tiers/](https://www.zendesk.com/blog/set-support-tiers/)
3. The 2025 Guide to AI Agent Development in Customer Support and Sales \- Medium, acessado em janeiro 28, 2026, [https://medium.com/@yash.p\_60148/the-2025-guide-to-ai-agent-development-in-customer-support-and-sales-86174ee483dc](https://medium.com/@yash.p_60148/the-2025-guide-to-ai-agent-development-in-customer-support-and-sales-86174ee483dc)
4. What Is the Model Context Protocol (MCP)? A Practical Guide to AI Integration \- Databricks, acessado em janeiro 28, 2026, [https://www.databricks.com/glossary/model-context-protocol](https://www.databricks.com/glossary/model-context-protocol)
5. Agentes IA: Infraestrutura e Modelos Recentes
6. Specification \- Model Context Protocol, acessado em janeiro 28, 2026, [https://modelcontextprotocol.io/specification/2025-06-18](https://modelcontextprotocol.io/specification/2025-06-18)
7. The 6 pillars that will define agent readiness in 2026 | Microsoft Copilot Blog, acessado em janeiro 28, 2026, [https://www.microsoft.com/en-us/microsoft-copilot/blog/copilot-studio/the-6-pillars-that-will-define-agent-readiness-in-2026/](https://www.microsoft.com/en-us/microsoft-copilot/blog/copilot-studio/the-6-pillars-that-will-define-agent-readiness-in-2026/)
8. The ultimate guide to automated ticket resolution in 2025 \- eesel AI, acessado em janeiro 28, 2026, [https://www.eesel.ai/blog/automated-ticket-resolution](https://www.eesel.ai/blog/automated-ticket-resolution)
9. AI agent trends for 2026: 7 shifts to watch \- Salesmate, acessado em janeiro 28, 2026, [https://www.salesmate.io/blog/future-of-ai-agents/](https://www.salesmate.io/blog/future-of-ai-agents/)
10. The Rise of the Self-Healing Service Desk: Ending the L1 Workload Crisis with AI Agents, acessado em janeiro 28, 2026, [https://itsm.tools/self-healing-service-desk-ai-agents/](https://itsm.tools/self-healing-service-desk-ai-agents/)
11. When Generative AI Meets Zabbix \- Zabbix Blog, acessado em janeiro 28, 2026, [https://blog.zabbix.com/when-generative-ai-meets-zabbix/30908/](https://blog.zabbix.com/when-generative-ai-meets-zabbix/30908/)
12. Agent-in-the-Loop: A Data Flywheel for Continuous ... \- arXiv, acessado em janeiro 28, 2026, [https://arxiv.org/abs/2510.06674](https://arxiv.org/abs/2510.06674)
13. AI assistant in Zabbix: How artificial intelligence helps solve IT problems \- Hawatel, acessado em janeiro 28, 2026, [https://hawatel.com/en/blog/ai-assistant-in-zabbix-how-artificial-intelligence-helps-solve-it-problems/](https://hawatel.com/en/blog/ai-assistant-in-zabbix-how-artificial-intelligence-helps-solve-it-problems/)
14. Reduce Resolution Time with AI ITSM | TeamDynamix, acessado em janeiro 28, 2026, [https://www.teamdynamix.com/how-can-we-help/using-ai-itsm-for-faster-resolution/](https://www.teamdynamix.com/how-can-we-help/using-ai-itsm-for-faster-resolution/)
15. 10 AI trends for 2026: Market signals and adoption predictions \- Xenoss, acessado em janeiro 28, 2026, [https://xenoss.io/blog/ai-trends-2026](https://xenoss.io/blog/ai-trends-2026)
16. Desempenho de Agentes em Hardware Específico
17. Hardware para Agentes de IA e Escala
18. Infraestrutura de Agentes Locais: Hardware e Monitoramento
19. Performance of Llama 3.1 8B AI Inference using vLLM on ND-H100-v5, acessado em janeiro 28, 2026, [https://techcommunity.microsoft.com/blog/azurehighperformancecomputingblog/performance-of-llama-3-1-8b-ai-inference-using-vllm-on-nd-h100-v5/4448355](https://techcommunity.microsoft.com/blog/azurehighperformancecomputingblog/performance-of-llama-3-1-8b-ai-inference-using-vllm-on-nd-h100-v5/4448355)
20. AWS Marketplace: Intel® AI for Enterprise Inference \- Llama-3.1-8B-Instruct \- Amazon.com, acessado em janeiro 28, 2026, [https://aws.amazon.com/marketplace/pp/prodview-wl5xk7nd6s7ls](https://aws.amazon.com/marketplace/pp/prodview-wl5xk7nd6s7ls)
21. vLLM or llama.cpp: Choosing the right LLM inference engine for your use case, acessado em janeiro 28, 2026, [https://developers.redhat.com/articles/2025/09/30/vllm-or-llamacpp-choosing-right-llm-inference-engine-your-use-case](https://developers.redhat.com/articles/2025/09/30/vllm-or-llamacpp-choosing-right-llm-inference-engine-your-use-case)
22. Agente Minúsculo Para Transações Bancárias
23. Best Practices & Design Patterns for Enterprise Scale Agentic AI Systems in 2025 \- Reddit, acessado em janeiro 28, 2026, [https://www.reddit.com/r/Agentic\_AI\_For\_Devs/comments/1nj5bgd/best\_practices\_design\_patterns\_for\_enterprise/](https://www.reddit.com/r/Agentic_AI_For_Devs/comments/1nj5bgd/best_practices_design_patterns_for_enterprise/)
24. Top 8 AI Agents for Customer Service in 2025 \- Ema, acessado em janeiro 28, 2026, [https://www.ema.co/additional-blogs/addition-blogs/top-ai-agents-customer-service](https://www.ema.co/additional-blogs/addition-blogs/top-ai-agents-customer-service)
25. Llama 3.2 1B: Classificação com RAG
26. Qdrant Launches Tiered Multitenancy for Vector Search \- Database Trends and Applications, acessado em janeiro 28, 2026, [https://www.dbta.com/Editorial/News-Flashes/Qdrant-Launches-Tiered-Multitenancy-for-Vector-Search-172538.aspx](https://www.dbta.com/Editorial/News-Flashes/Qdrant-Launches-Tiered-Multitenancy-for-Vector-Search-172538.aspx)
27. Especificação Técnica Agente IA Financeiro
28. Chat with Your Zabbix: A Practical Guide to Integrating AI with Zabbix AI MCP Server \- Quadrata, acessado em janeiro 28, 2026, [https://www.quadrata.ae/chat-with-your-zabbix-a-practical-guide-to-integrating-ai-with-zabbix-ai-mcp-server-2/](https://www.quadrata.ae/chat-with-your-zabbix-a-practical-guide-to-integrating-ai-with-zabbix-ai-mcp-server-2/)
29. Using the zabbix\_utils Library for Tool Development \- Zabbix Blog, acessado em janeiro 28, 2026, [https://blog.zabbix.com/python-zabbix-utils-alert-tracker-tool/29010/](https://blog.zabbix.com/python-zabbix-utils-alert-tracker-tool/29010/)
30. Introducing zabbix\_utils \- the official Python library for Zabbix API, acessado em janeiro 28, 2026, [https://blog.zabbix.com/python-zabbix-utils/27056/](https://blog.zabbix.com/python-zabbix-utils/27056/)
31. problem.get \- Zabbix, acessado em janeiro 28, 2026, [https://www.zabbix.com/documentation/5.0/manual/api/reference/problem/get](https://www.zabbix.com/documentation/5.0/manual/api/reference/problem/get)
32. history.get \- Zabbix, acessado em janeiro 28, 2026, [https://www.zabbix.com/documentation/current/en/manual/api/reference/history/get](https://www.zabbix.com/documentation/current/en/manual/api/reference/history/get)
33. Zabbix API, acessado em janeiro 28, 2026, [https://www.zabbix.com/documentation/2.0/manual/appendix/api/api](https://www.zabbix.com/documentation/2.0/manual/appendix/api/api)
34. Revolutionizing Zabbix Maintenance with Artificial Intelligence, acessado em janeiro 28, 2026, [https://blog.zabbix.com/revolutionizing-zabbix-maintenance-with-artificial-intelligence/31284/](https://blog.zabbix.com/revolutionizing-zabbix-maintenance-with-artificial-intelligence/31284/)
35. Multi-Source Data for Scalable AI Agents (2026) \- CData Software, acessado em janeiro 28, 2026, [https://www.cdata.com/blog/multi-source-scalable-data-ai-agents-2026](https://www.cdata.com/blog/multi-source-scalable-data-ai-agents-2026)
36. 13 AI Customer Service Best Practices for 2025 \- Kustomer, acessado em janeiro 28, 2026, [https://www.kustomer.com/resources/blog/ai-customer-service-best-practices/](https://www.kustomer.com/resources/blog/ai-customer-service-best-practices/)
37. AI Agent Architecture: Frameworks, Patterns & Best Practices \- Leanware, acessado em janeiro 28, 2026, [https://www.leanware.co/insights/ai-agent-architecture](https://www.leanware.co/insights/ai-agent-architecture)
38. How Do LLMs Handle Function Calls with External Libraries/APIs? : r/AI\_Agents \- Reddit, acessado em janeiro 28, 2026, [https://www.reddit.com/r/AI\_Agents/comments/1ic8lo5/how\_do\_llms\_handle\_function\_calls\_with\_external/](https://www.reddit.com/r/AI_Agents/comments/1ic8lo5/how_do_llms_handle_function_calls_with_external/)
39. Tool calling – Shiny for Python \- Posit, acessado em janeiro 28, 2026, [https://shiny.posit.co/py/docs/genai-tools.html](https://shiny.posit.co/py/docs/genai-tools.html)
40. How AI uses feedback loops to learn from its mistakes \- Zendesk, acessado em janeiro 28, 2026, [https://www.zendesk.com/blog/ai-feedback-loop/](https://www.zendesk.com/blog/ai-feedback-loop/)
41. What Is Agentic AI? \- Databricks, acessado em janeiro 28, 2026, [https://www.databricks.com/glossary/agentic-ai](https://www.databricks.com/glossary/agentic-ai)
42. API Python para Llama 3.2 1B
43. How do you prevent AI agents from repeating the same mistakes? : r/LangChain \- Reddit, acessado em janeiro 28, 2026, [https://www.reddit.com/r/LangChain/comments/1nja92a/how\_do\_you\_prevent\_ai\_agents\_from\_repeating\_the/](https://www.reddit.com/r/LangChain/comments/1nja92a/how_do_you_prevent_ai_agents_from_repeating_the/)
44. How to Prevent Duplicate Files in RAG Database : r/n8n \- Reddit, acessado em janeiro 28, 2026, [https://www.reddit.com/r/n8n/comments/1n2fzxv/how\_to\_prevent\_duplicate\_files\_in\_rag\_database/](https://www.reddit.com/r/n8n/comments/1n2fzxv/how_to_prevent_duplicate_files_in_rag_database/)
45. Zabbix Summit 2025 Agenda, acessado em janeiro 28, 2026, [https://www.zabbix.com/events/zabbix\_summit\_2025\_agenda](https://www.zabbix.com/events/zabbix_summit_2025_agenda)
46. What's new in Zabbix 7.4, acessado em janeiro 28, 2026, [https://www.zabbix.com/whats\_new\_7\_4](https://www.zabbix.com/whats_new_7_4)
47. Building an AI Agent for Natural Language to SQL Query Execution on Live Databases :: SciPy 2025, acessado em janeiro 28, 2026, [https://cfp.scipy.org/scipy2025/talk/XUYKZZ/](https://cfp.scipy.org/scipy2025/talk/XUYKZZ/)
48. Tracing using the OpenInference SDK \- Langfuse, acessado em janeiro 28, 2026, [https://langfuse.com/guides/cookbook/otel\_integration\_arize](https://langfuse.com/guides/cookbook/otel_integration_arize)
49. Building a Smart RAG System: How LangChain's SQLRecordManager Eliminates Duplicate Processing and Keeps Your Vector Store Clean \- DEV Community, acessado em janeiro 28, 2026, [https://dev.to/sreeni5018/building-a-smart-rag-system-how-langchains-sqlrecordmanager-eliminates-duplicate-processing-and-1mij](https://dev.to/sreeni5018/building-a-smart-rag-system-how-langchains-sqlrecordmanager-eliminates-duplicate-processing-and-1mij)
50. Integrations for AI Agents \- Knit API, acessado em janeiro 28, 2026, [https://www.getknit.dev/blog/integrations-for-ai-agents](https://www.getknit.dev/blog/integrations-for-ai-agents)
51. How to Implement Multitenancy and Custom Sharding in Qdrant, acessado em janeiro 28, 2026, [https://qdrant.tech/articles/multitenancy/](https://qdrant.tech/articles/multitenancy/)
52. Stop Your RAG Agent from Making Things Up: A Functional Programming Approach, acessado em janeiro 28, 2026, [https://dev.to/sreeni5018/stop-your-rag-agent-from-making-things-up-a-functional-programming-approach-1bk3](https://dev.to/sreeni5018/stop-your-rag-agent-from-making-things-up-a-functional-programming-approach-1bk3)
53. Hybrid RAG with Qdrant: multi-tenancy, custom sharding, distributed setup \- LlamaIndex, acessado em janeiro 28, 2026, [https://developers.llamaindex.ai/python/examples/vector\_stores/qdrant\_hybrid\_rag\_multitenant\_sharding/](https://developers.llamaindex.ai/python/examples/vector_stores/qdrant_hybrid_rag_multitenant_sharding/)
54. Observability and Evaluation Strategies for Tool-Calling AI Agents: A Complete Guide, acessado em janeiro 28, 2026, [https://www.getmaxim.ai/articles/observability-and-evaluation-strategies-for-tool-calling-ai-agents-a-complete-guide/](https://www.getmaxim.ai/articles/observability-and-evaluation-strategies-for-tool-calling-ai-agents-a-complete-guide/)
55. Best practices: Preparing your help center for generative AI, acessado em janeiro 28, 2026, [https://support.zendesk.com/hc/en-us/articles/9067636151834-Best-practices-Preparing-your-help-center-for-generative-AI](https://support.zendesk.com/hc/en-us/articles/9067636151834-Best-practices-Preparing-your-help-center-for-generative-AI)

[image1]: <data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAEYAAAAXCAYAAAC2/DnWAAAEJElEQVR4Xu2XSaiOURjHHxkyz5l1EVdyRWGB5JY5kUwJYYMSNuZY3MSCsjBtDMmGYmWHLG4UQlgQiUSiCFEWlOH53eec757vvMN3v8tC7v3Xv+97z3neM/zPM5xXpBnNaEY22ihbx43/Etoqq5WLlCOULV17B+Vg9/9vo4Vyj7Iq7mgI2imXKY8r9ykHFHfXYbjygJjNCrHNNBTdlSeUP5S1YmOcUV5XTnLP251tL+VN5a+Ib5Qf3f+HyiVSL2weEPyk2B7LAif3QLlTTJDFyttiC/RYqDwvZovNJuUdZUVgk4WhyqfKx2Lvh0CwK2Kb9cJ4MM9rMSE7Bu2IwVp5B0FLhchS5Zq4sRTYPOozES6HF1xVflWOdTa9lZek2IuwPaqsCdrS0EV5Tey0ESgNI5XvJSlMX+VLSQoDuokdzDflhKgvBKGLpw6JO0qBxXyQ4pOcqtwh9a6HQE+UwwoWBt7FRfOwQexkD8cdARD5tJQnDM+0M/bc4q4ikFeOKVvFHXngNG+JKd/DEQ+K4xa13yqfKae4Nt4lBOZ5oxSEi59d3JXAOilPGLwPLyQ80/Khx3qxUArBQVSKzblKzCkmhgY04C2Ig6q7lEeUj5RjAjsG2ib1SZDTvajc7Pqy4AUNwzILuHy8eS8MiRgheIaMdV8sD7LBLHB4rJVU4MF6Dyr3igmKBuyFQlAAE7Don8oFro0X90vyJPAiqpUXh5wwXfKF8eM3RJg0eGGYiw2SaH01Y31blJ0L1kmQe6ii4RoR6Z5yfNCGOIhVgF84HtIzaCdm2TyuBhiYXEHo4HIoTD+ld6WzSUOexzAmoeu9wJM2v5G8UKoQq3SvlKOiPo8a5bSojX2yXwoOVw4On6rWKTQarfwiyYm9MN698AwGGuie8R7uPGyYkwtdNYTPMXhkvEBCZ6tYBfwuNt87sXCmD+QJAzg43jsnyeSKAKyf6hVjjtjavfeTO8PUUbeh55KcOBaGypNWVWaJXbhibwjhqxJhmAWSLjblJF/g11kryX7WhshZ8Ddw0sZnsYMv3NtQGbWpSqGycSghUNrGcMO7kry0hSA0SJJ595jGClMj6R5DKB6S9ANjTPYTjjdZbH1F9oQJyc03MmicfCnJxOUg9wywW608K0k3joFweCZjxiIS39yoyxGGuWcqP4mtnZQQYrBkfwIwJntBDI8qscPrH7TVLWy38oVyrVi55ho+LrAhp1CuKe3YLldeUF5W9gns8oAdAvhvJe4XkKsC4QY3Oltcmm8on3sg77EuyH/6uNGm3WG4tzB2GhDmhliUsIdTYlUq855FYp2vnCHZH4eEBWHGl3Gl5JfqLHDy1WJj8JsWIn8CvJfDzfoE4JDbu/9dJf1C+1+CUEWYUuHd5JD2CdDkQbKlGmXdq5os+ol5TGNyXzNK4TdMxeo2PAfzawAAAABJRU5ErkJggg==>