Não basta construir uma memória de IA — é preciso operá-la com rigor de engenharia. Estes números são reais, lidos do Prometheus de produção agora e atualizados sozinhos a cada minuto.
O OmniMemory é a memória persistente e compartilhada de todo o ecossistema de IA — onde cada agente e cada pessoa guardam e recuperam conhecimento. Em vez de cada IA começar do zero, todas compartilham um cérebro coletivo que aprende continuamente.
Um cérebro só tem valor se for confiável. Instrumentamos cada camada com observabilidade de nível SRE. Abaixo, cada indicador traduzido em o que mede, o que representa e por que importa para o negócio — com o dado real ao lado.
PostgreSQL + pgvector. Memórias cifradas, assinadas e versionadas.
Patroni: failover automático do banco em segundos, sem perda.
Redis: cache e filas. A maioria das respostas é instantânea.
Workers inspirados no sono consolidam a memória 24/7.
Prometheus + Grafana + Loki num cluster de 4 nós. Alertas em minutos.
Cofre com trilha de auditoria e isolamento entre projetos (ISO 27001).
● ao vivo = lido do Prometheus de produção em tempo real · exemplo = forma ilustrativa (painéis baseados em logs Loki ou conceito). Painéis reais: grafana.omnimemory.com.br
❓ O sistema está no ar, íntegro e respondendo AGORA?
O semáforo executivo — a primeira tela. Em poucos indicadores responde se o cérebro está vivo: quantas memórias guarda, se o banco principal roda, quanto disco há de folga e se a escrita flui. Um sim/não em 5 segundos.
Ocupação média do disco nos 4 servidores. Folga grande = espaço pra crescer por muito tempo.
Memórias gravadas por segundo. Linha viva = o cérebro está aprendendo em tempo real.
Carga de trabalho de cada servidor. Equilíbrio baixo = cluster tranquilo, com folga enorme.
| Indicador | O que mede | O que representa | Por que importa |
|---|---|---|---|
| Memórias totais | Memórias vivas no banco. | O tamanho do cérebro coletivo. | KPI de crescimento do ativo. |
| DB primary rodando | Se o nó primário do Postgres aceita escrita. | A espinha dorsal. | 0 = ninguém grava. |
| Idade do backup (h) | Horas desde o último backup íntegro. | Garantia anti-desastre. | Alerta em 24h. |
| Embedding fallback (24h) | Buscas que caíram no caminho lento. | Sinal de saturação da geração de vetores. | Raiz do incidente 05/06. |
| Latência save p95 | Tempo de gravação (95º pct). | Velocidade percebida. | Alvo < 2s. |
| Load por nó | Carga dos 4 servidores. | Distribuição saudável vs nó afogado. | Antecipa saturação. |
| Taxa de write | Gravações por segundo. | O pulso do aprendizado. | Zero abrupto = captura caiu. |
❓ A 'mente' (memória + segurança + busca) funciona como um todo?
A visão consolidada: volume, integridade/segurança (assinatura e cifragem), busca semântica (cobertura de embeddings) e resiliência. Prova que não é um banco — é um sistema cognitivo governado.
% das memórias com assinatura anti-adulteração. 100% = cada memória prova que não foi violada.
% das memórias já indexadas por significado. Em expansão ativa (backfill em curso) — quanto maior, mais do cérebro é 'buscável por sentido'.
O crescimento do ativo de conhecimento. Curva ascendente = a plataforma acumula valor continuamente.
O cérebro descarta o irrelevante — esquecer também é inteligência. Mantém o acervo enxuto, relevante e barato de buscar.
| Indicador | O que mede | O que representa | Por que importa |
|---|---|---|---|
| Memories ativas | Total de memórias vivas. | Conhecimento coletivo. | KPI de crescimento. |
| Forgotten cumulativas | Memórias esquecidas. | Higiene cognitiva — esquece o irrelevante. | Evita ruído e custo. |
| Cobertura HMAC | % com assinatura. | Integridade anti-adulteração. | Segurança ISO 27001. |
| Cobertura embedding | % buscável por significado. | Qualidade do recall. | Gaps = busca cega. |
| Cobertura cifragem | % criptografado. | Confidencialidade em repouso. | Compliance. |
| Gateway latency p95 | Latência da API. | Velocidade pra todos os agentes. | SLA de experiência. |
| Patroni replication lag | Atraso da réplica. | Atualização da cópia de segurança. | Janela de perda em failover. |
| Last successful backup | Tempo desde o backup. | Garantia anti-desastre. | Alerta de envelhecimento. |
| Top projetos por count | Quem mais usa o cérebro. | Adoção por produto/cliente. | Valor por frente. |
| Capture rate | Eventos de captura/s. | Aprendizado em tempo real. | Prova de captura viva. |
❓ Os processos cognitivos inspirados no sono estão rodando?
O diferencial científico. Inspirado em como o cérebro humano consolida memórias durante o sono, workers rodam em ciclos: DMN (conecta), NREM (consolida o importante, decai o irrelevante), REM (sintetiza insight), + Plasticidade e Resistência ao Decaimento. Prova que o cérebro processa e aprende enquanto 'dorme'.
Quantos dos workers Brain++ estão ativos agora. O time cognitivo completo de plantão.
Memórias importantes promovidas a conhecimento consolidado — o 'sono profundo' separando sinal de ruído.
Como a força de uma memória não-acessada cai com o tempo (lei de potência). Conceito implementado de verdade no decay.
Cada série é um worker cognitivo. Linha no topo = de plantão; queda = ciclo travado (o anti-silêncio que monitoramos).
| Indicador | O que mede | O que representa | Por que importa |
|---|---|---|---|
| Workers UP (DMN/NREM/REM/…) | Se cada worker cognitivo está ativo. | Os 'lobos' do cérebro funcionando. | Worker caído = função offline. |
| DMN edges inseridos | Conexões novas entre memórias. | Crescimento do grafo de conhecimento. | Cérebro mais conectado = mais inteligente. |
| NREM promovidos | Memórias consolidadas. | Aprendizado de longo prazo. | Separa sinal de ruído. |
| REM síntese gerada | Insights sintetizados no 'sonho'. | Conhecimento novo do existente. | Criatividade do sistema. |
| Plasticity / Decay-Resist | Plasticidade e proteção de memórias-chave. | Equilíbrio aprender x proteger. | Estabilidade cognitiva. |
| Consolidation Phase N1/N2/N3 | Estágios do 'sono'. | Profundidade da consolidação. | Fidelidade ao modelo. |
| Duração / erros por worker | Tempo e falhas por ciclo. | Saúde operacional. | Erros = manutenção. |
| Tempo desde último ciclo OK | Liveness de cada worker. | Prova de execução real. | Detecta worker zumbi. |
❓ A memória está rápida, buscável e o cache economiza custo?
O coração do produto: volume ativo vs esquecido, cobertura de busca e o cache que decide quando uma busca é instantânea e barata vs quando chama o modelo de IA. Latências de salvar, buscar e gerar embedding.
% das memórias indexadas por significado. Em expansão (backfill em curso) — cada ponto torna mais do acervo buscável.
Quanto da memória do cache está em uso. Bem abaixo do limite = folga enorme, sem descarte de dados quentes.
Consumo real do Redis ao longo do tempo. Estável e baixo = saudável.
O ciclo de vida: o cérebro acumula o útil e descarta o irrelevante. Esquecer também é inteligência.
| Indicador | O que mede | O que representa | Por que importa |
|---|---|---|---|
| Memórias ativas / esquecidas | Vivas vs decaídas. | Saúde do ciclo de vida. | Crescimento sem inchaço. |
| HMAC / Embedding coverage | Integridade e busca. | Qualidade e segurança. | Gaps = risco/recall cego. |
| Memórias por projeto | Distribuição por cliente. | Onde o cérebro é mais usado. | Adoção por frente. |
| save / search / embedding p50/p95/p99 | Latências das operações. | Velocidade de aprender e lembrar. | p95 saudável < 500ms–2s. |
| Throughput (ops/s) | Operações por segundo. | Capacidade em uso. | Dimensiona escala. |
| Cache hit rate / fallback | % do cache vs caminho lento. | Eficiência de custo e latência. | Alto hit = economia. |
❓ O banco sobrevive à queda de um servidor sem perder dados?
A prova de resiliência industrial. PostgreSQL com Patroni: um primário e réplicas sincronizadas. Se o primário cai, outro assume automaticamente em segundos, sem intervenção e sem perda.
Nós do cluster ativos. Vários = folga pra perder um sem dor — a essência da alta disponibilidade.
Cópias quentes recebendo dados ao vivo, prontas pra assumir.
Quem é o primário ao longo do tempo. Uma troca apareceria como degrau — e o sistema seguiria servindo.
| Indicador | O que mede | O que representa | Por que importa |
|---|---|---|---|
| Postgres Running | Nós saudáveis. | Capacidade e folga. | Base da disponibilidade. |
| Primary / Replica | Papéis no cluster. | Topologia de HA. | Visibilidade de failover. |
| Streaming Replication | Réplicas recebendo ao vivo. | Cópias quentes. | Sincronismo = zero perda. |
| Timeline | Geração da linha do tempo. | Quantos failovers houve. | Histórico de continuidade. |
| DCS Last Seen | Saúde do consenso (etcd). | O árbitro que decide quem manda. | Falha = risco de split-brain. |
| Replication Lag | Atraso das réplicas. | Janela de perda em failover. | Perto de zero é o alvo. |
❓ A camada de velocidade está rápida e sem desperdício?
O turbo: cache de embeddings, filas e dados quentes. Memória vs limite, evictions, fragmentação, comandos e o slowlog. Garante que a velocidade não vira gargalo nem custo escondido.
Pressão de memória. Bem abaixo de 85% (risco) = sem descarte forçado de dados.
Quantos serviços usam o cache agora — workers, gateway e filas.
Volume de dados quentes mantidos prontos pra resposta instantânea.
Hits = servido do cache (rápido/barato). Volume acompanha o tráfego da operação.
| Indicador | O que mede | O que representa | Por que importa |
|---|---|---|---|
| Redis UP / Clients | Disponibilidade e conexões. | Vida e demanda do cache. | Base do que é rápido. |
| Memória / % maxmemory | Consumo vs limite. | Pressão de eviction. | >85% = perto de descartar. |
| Evictions / Fragmentation | Descartes e desperdício interno. | Pressão real de memória. | Alto = limpar/subir limite. |
| Hit rate | % de acerto. | Eficiência de custo/latência. | Alto = economia. |
| Top comandos / latência | Comandos dominantes e custo. | Onde está o esforço. | Identifica comando lento. |
| Slowlog (p99/count/max) | Comandos lentos registrados. | Onde a latência se esconde. | Diagnóstico de picos. |
| Keys por DB / TTL / Pubsub | Distribuição, expiração, canais. | Padrão de uso. | TTL baixo = re-trabalho. |
❓ Os 4 servidores têm CPU, memória, disco e rede com folga?
O chão de fábrica: CPU, memória, disco, rede e carga por nó (memory01–04). Antecipa um disco enchendo ou um nó afogando antes de virar lentidão.
Uso de processador de cada servidor. Baixo e equilibrado = muita folga pra crescer.
RAM livre em cada servidor. Bastante disponível = absorve picos sem risco.
Ocupação consolidada. Verde = folga confortável por muito tempo.
| Indicador | O que mede | O que representa | Por que importa |
|---|---|---|---|
| CPU Usage por nó | Processador. | Esforço de cada servidor. | Antecipa nó afogado. |
| Memória usada / disponível | RAM consumida e livre. | Folga pra picos. | Sem folga = risco OOM. |
| Disco usado / disponível | Ocupação de disco. | Tempo até encher. | Avisa semanas antes. |
| Network in/out | Tráfego por nó. | Volume de comunicação. | Picos = sync ou abuso. |
| Load Average | Carga média. | Pressão sustentada. | Tendência de saturação. |
❓ A porta de entrada responde rápido, vista de fora?
A experiência do cliente externo: sondas batem na API de fora pra dentro e medem latência real ponta a ponta — como um usuário faria.
Tempo de resposta medido de fora, incluindo rede e proxy. Baixíssimo = a porta de entrada não é gargalo.
Verificação contínua de que o serviço responde. (A página que você está vendo também roda neste cluster.)
| Indicador | O que mede | O que representa | Por que importa |
|---|---|---|---|
| Gateway UP / Traefik UP | Disponibilidade vista de fora. | O serviço acessível ao cliente. | O SLA que o cliente sente. |
| Latência (ms) | Tempo de resposta externo. | Velocidade ponta a ponta. | Inclui rede e proxy. |
| Response Time | Histórico de latência. | Tendência externa. | Detecta degradação. |
❓ Quem acessou quais segredos, e tentativas indevidas foram bloqueadas?
A trilha de auditoria (ISO 27001). Todo acesso a credencial é registrado: quem, qual segredo, concedido ou negado — incluindo tentativas cross-project (um projeto tentando ler segredo de outro). Prova de governança. (Painéis baseados em logs Loki — exibidos aqui de forma ilustrativa.)
Cada acesso é uma decisão auditada. O bloqueio visível é a segurança funcionando.
Distribuição de quem consome segredos. Um pico anômalo seria investigado.
Cross-project = isolamento entre projetos funcionando — o controle que protege cada cliente.
| Indicador | O que mede | O que representa | Por que importa |
|---|---|---|---|
| Decisions per minute | Acessos por minuto, por decisão. | Atividade e bloqueios ao vivo. | Bloqueio = controle ativo. |
| Top secrets accessed | Segredos mais lidos. | O crítico do dia a dia. | Foco de rotação. |
| Cross-project DENIED | Tentativas barradas entre projetos. | Isolamento multi-tenant. | Clientes não se enxergam. |
| Projects with most accesses | Quem mais usa o cofre. | Distribuição de uso. | Anomalia = investigação. |
| Denied by reason | Negações por causa. | Padrão das tentativas barradas. | Eficácia das políticas. |
❓ Raio-x rápido da saúde física do cluster.
A versão resumida e visual da infraestrutura — CPU, disco e carga num relance.
Ocupação do disco, consolidada. Verde = folga confortável.
Carga de cada servidor. Equilíbrio = cluster bem distribuído.
Processador por servidor, agregado.
| Indicador | O que mede | O que representa | Por que importa |
|---|---|---|---|
| CPU / Memory por nó | Processador e RAM. | Esforço e equilíbrio. | Detecta nó sobrecarregado. |
| Disk I/O / Network | Disco e rede. | Atividade de armazenamento e comunicação. | Picos = backup/consolidação. |
| Load Average | Carga média. | Pressão sustentada. | Tendência de saturação. |
| Filesystem Usage | Uso do disco. | Tempo até encher. | Alerta visual de capacidade. |