🧠 OMNIMEMORY · OBSERVABILIDADE AO VIVO · conectando…

O Cérebro Coletivo sob vigilância total

Não basta construir uma memória de IA — é preciso operá-la com rigor de engenharia. Estes números são reais, lidos do Prometheus de produção agora e atualizados sozinhos a cada minuto.

Memórias no cérebro
Projetos atendidos
Integridade (HMAC)
Servidores (HA)
Nós Postgres ativos

O que é, e por que isto importa para os patrocinadores

O OmniMemory é a memória persistente e compartilhada de todo o ecossistema de IA — onde cada agente e cada pessoa guardam e recuperam conhecimento. Em vez de cada IA começar do zero, todas compartilham um cérebro coletivo que aprende continuamente.

Um cérebro só tem valor se for confiável. Instrumentamos cada camada com observabilidade de nível SRE. Abaixo, cada indicador traduzido em o que mede, o que representa e por que importa para o negócio — com o dado real ao lado.

🧠 O Cérebro

PostgreSQL + pgvector. Memórias cifradas, assinadas e versionadas.

🛡️ Alta Disponibilidade

Patroni: failover automático do banco em segundos, sem perda.

⚡ Velocidade

Redis: cache e filas. A maioria das respostas é instantânea.

🌙 Cognição (Brain++)

Workers inspirados no sono consolidam a memória 24/7.

📈 Observabilidade

Prometheus + Grafana + Loki num cluster de 4 nós. Alertas em minutos.

🔐 Governança

Cofre com trilha de auditoria e isolamento entre projetos (ISO 27001).

ao vivo = lido do Prometheus de produção em tempo real · exemplo = forma ilustrativa (painéis baseados em logs Loki ou conceito). Painéis reais: grafana.omnimemory.com.br

🚦
EXECUTIVO · 7 indicadores

Saúde da Produção

❓ O sistema está no ar, íntegro e respondendo AGORA?

O semáforo executivo — a primeira tela. Em poucos indicadores responde se o cérebro está vivo: quantas memórias guarda, se o banco principal roda, quanto disco há de folga e se a escrita flui. Um sim/não em 5 segundos.

Disco usado no cluster (%) ● ao vivo

Ocupação média do disco nos 4 servidores. Folga grande = espaço pra crescer por muito tempo.

Taxa de escrita (saves/seg) ● ao vivo

Memórias gravadas por segundo. Linha viva = o cérebro está aprendendo em tempo real.

Load por nó (memory01–04) ● ao vivo

Carga de trabalho de cada servidor. Equilíbrio baixo = cluster tranquilo, com folga enorme.

📋 Todos os indicadores deste painel

IndicadorO que medeO que representaPor que importa
Memórias totaisMemórias vivas no banco.O tamanho do cérebro coletivo.KPI de crescimento do ativo.
DB primary rodandoSe o nó primário do Postgres aceita escrita.A espinha dorsal.0 = ninguém grava.
Idade do backup (h)Horas desde o último backup íntegro.Garantia anti-desastre.Alerta em 24h.
Embedding fallback (24h)Buscas que caíram no caminho lento.Sinal de saturação da geração de vetores.Raiz do incidente 05/06.
Latência save p95Tempo de gravação (95º pct).Velocidade percebida.Alvo < 2s.
Load por nóCarga dos 4 servidores.Distribuição saudável vs nó afogado.Antecipa saturação.
Taxa de writeGravações por segundo.O pulso do aprendizado.Zero abrupto = captura caiu.
🧠
VISÃO GERAL · 10 indicadores

Brain++ Health

❓ A 'mente' (memória + segurança + busca) funciona como um todo?

A visão consolidada: volume, integridade/segurança (assinatura e cifragem), busca semântica (cobertura de embeddings) e resiliência. Prova que não é um banco — é um sistema cognitivo governado.

Integridade HMAC (%) ● ao vivo

% das memórias com assinatura anti-adulteração. 100% = cada memória prova que não foi violada.

Cobertura de busca semântica (%) ● ao vivo

% das memórias já indexadas por significado. Em expansão ativa (backfill em curso) — quanto maior, mais do cérebro é 'buscável por sentido'.

Memórias ativas ao longo do tempo ● ao vivo

O crescimento do ativo de conhecimento. Curva ascendente = a plataforma acumula valor continuamente.

Memórias esquecidas (higiene cognitiva) ● ao vivo

O cérebro descarta o irrelevante — esquecer também é inteligência. Mantém o acervo enxuto, relevante e barato de buscar.

📋 Todos os indicadores deste painel

IndicadorO que medeO que representaPor que importa
Memories ativasTotal de memórias vivas.Conhecimento coletivo.KPI de crescimento.
Forgotten cumulativasMemórias esquecidas.Higiene cognitiva — esquece o irrelevante.Evita ruído e custo.
Cobertura HMAC% com assinatura.Integridade anti-adulteração.Segurança ISO 27001.
Cobertura embedding% buscável por significado.Qualidade do recall.Gaps = busca cega.
Cobertura cifragem% criptografado.Confidencialidade em repouso.Compliance.
Gateway latency p95Latência da API.Velocidade pra todos os agentes.SLA de experiência.
Patroni replication lagAtraso da réplica.Atualização da cópia de segurança.Janela de perda em failover.
Last successful backupTempo desde o backup.Garantia anti-desastre.Alerta de envelhecimento.
Top projetos por countQuem mais usa o cérebro.Adoção por produto/cliente.Valor por frente.
Capture rateEventos de captura/s.Aprendizado em tempo real.Prova de captura viva.
🌙
COGNIÇÃO · 8 indicadores

Brain++ Neurônios

❓ Os processos cognitivos inspirados no sono estão rodando?

O diferencial científico. Inspirado em como o cérebro humano consolida memórias durante o sono, workers rodam em ciclos: DMN (conecta), NREM (consolida o importante, decai o irrelevante), REM (sintetiza insight), + Plasticidade e Resistência ao Decaimento. Prova que o cérebro processa e aprende enquanto 'dorme'.

Workers cognitivos no ar (de 10) ● ao vivo

Quantos dos workers Brain++ estão ativos agora. O time cognitivo completo de plantão.

NREM — promoções (consolidação) ● ao vivo

Memórias importantes promovidas a conhecimento consolidado — o 'sono profundo' separando sinal de ruído.

Curva de esquecimento (Ebbinghaus) — ilustrativo exemplo

Como a força de uma memória não-acessada cai com o tempo (lei de potência). Conceito implementado de verdade no decay.

Status dos workers (1=ativo) ● ao vivo

Cada série é um worker cognitivo. Linha no topo = de plantão; queda = ciclo travado (o anti-silêncio que monitoramos).

📋 Todos os indicadores deste painel

IndicadorO que medeO que representaPor que importa
Workers UP (DMN/NREM/REM/…)Se cada worker cognitivo está ativo.Os 'lobos' do cérebro funcionando.Worker caído = função offline.
DMN edges inseridosConexões novas entre memórias.Crescimento do grafo de conhecimento.Cérebro mais conectado = mais inteligente.
NREM promovidosMemórias consolidadas.Aprendizado de longo prazo.Separa sinal de ruído.
REM síntese geradaInsights sintetizados no 'sonho'.Conhecimento novo do existente.Criatividade do sistema.
Plasticity / Decay-ResistPlasticidade e proteção de memórias-chave.Equilíbrio aprender x proteger.Estabilidade cognitiva.
Consolidation Phase N1/N2/N3Estágios do 'sono'.Profundidade da consolidação.Fidelidade ao modelo.
Duração / erros por workerTempo e falhas por ciclo.Saúde operacional.Erros = manutenção.
Tempo desde último ciclo OKLiveness de cada worker.Prova de execução real.Detecta worker zumbi.
💾
PRODUTO · 6 indicadores

Memórias Vivas

❓ A memória está rápida, buscável e o cache economiza custo?

O coração do produto: volume ativo vs esquecido, cobertura de busca e o cache que decide quando uma busca é instantânea e barata vs quando chama o modelo de IA. Latências de salvar, buscar e gerar embedding.

Cobertura de busca semântica (%) ● ao vivo

% das memórias indexadas por significado. Em expansão (backfill em curso) — cada ponto torna mais do acervo buscável.

Pressão do cache (% do limite) ● ao vivo

Quanto da memória do cache está em uso. Bem abaixo do limite = folga enorme, sem descarte de dados quentes.

Memória do cache usada (MB) ● ao vivo

Consumo real do Redis ao longo do tempo. Estável e baixo = saudável.

Memórias ativas vs esquecidas exemplo

O ciclo de vida: o cérebro acumula o útil e descarta o irrelevante. Esquecer também é inteligência.

📋 Todos os indicadores deste painel

IndicadorO que medeO que representaPor que importa
Memórias ativas / esquecidasVivas vs decaídas.Saúde do ciclo de vida.Crescimento sem inchaço.
HMAC / Embedding coverageIntegridade e busca.Qualidade e segurança.Gaps = risco/recall cego.
Memórias por projetoDistribuição por cliente.Onde o cérebro é mais usado.Adoção por frente.
save / search / embedding p50/p95/p99Latências das operações.Velocidade de aprender e lembrar.p95 saudável < 500ms–2s.
Throughput (ops/s)Operações por segundo.Capacidade em uso.Dimensiona escala.
Cache hit rate / fallback% do cache vs caminho lento.Eficiência de custo e latência.Alto hit = economia.
🛡️
ALTA DISPONIBILIDADE · 6 indicadores

Patroni HA

❓ O banco sobrevive à queda de um servidor sem perder dados?

A prova de resiliência industrial. PostgreSQL com Patroni: um primário e réplicas sincronizadas. Se o primário cai, outro assume automaticamente em segundos, sem intervenção e sem perda.

Nós Postgres saudáveis ● ao vivo

Nós do cluster ativos. Vários = folga pra perder um sem dor — a essência da alta disponibilidade.

Réplicas sincronizadas ● ao vivo

Cópias quentes recebendo dados ao vivo, prontas pra assumir.

Papel por nó (1=Primary) ● ao vivo

Quem é o primário ao longo do tempo. Uma troca apareceria como degrau — e o sistema seguiria servindo.

📋 Todos os indicadores deste painel

IndicadorO que medeO que representaPor que importa
Postgres RunningNós saudáveis.Capacidade e folga.Base da disponibilidade.
Primary / ReplicaPapéis no cluster.Topologia de HA.Visibilidade de failover.
Streaming ReplicationRéplicas recebendo ao vivo.Cópias quentes.Sincronismo = zero perda.
TimelineGeração da linha do tempo.Quantos failovers houve.Histórico de continuidade.
DCS Last SeenSaúde do consenso (etcd).O árbitro que decide quem manda.Falha = risco de split-brain.
Replication LagAtraso das réplicas.Janela de perda em failover.Perto de zero é o alvo.
DESEMPENHO · 7 indicadores

Redis Cache

❓ A camada de velocidade está rápida e sem desperdício?

O turbo: cache de embeddings, filas e dados quentes. Memória vs limite, evictions, fragmentação, comandos e o slowlog. Garante que a velocidade não vira gargalo nem custo escondido.

Uso do cache (% do limite) ● ao vivo

Pressão de memória. Bem abaixo de 85% (risco) = sem descarte forçado de dados.

Clientes conectados ● ao vivo

Quantos serviços usam o cache agora — workers, gateway e filas.

Chaves no cache ● ao vivo

Volume de dados quentes mantidos prontos pra resposta instantânea.

Acertos vs perdas do cache (/s) ● ao vivo

Hits = servido do cache (rápido/barato). Volume acompanha o tráfego da operação.

📋 Todos os indicadores deste painel

IndicadorO que medeO que representaPor que importa
Redis UP / ClientsDisponibilidade e conexões.Vida e demanda do cache.Base do que é rápido.
Memória / % maxmemoryConsumo vs limite.Pressão de eviction.>85% = perto de descartar.
Evictions / FragmentationDescartes e desperdício interno.Pressão real de memória.Alto = limpar/subir limite.
Hit rate% de acerto.Eficiência de custo/latência.Alto = economia.
Top comandos / latênciaComandos dominantes e custo.Onde está o esforço.Identifica comando lento.
Slowlog (p99/count/max)Comandos lentos registrados.Onde a latência se esconde.Diagnóstico de picos.
Keys por DB / TTL / PubsubDistribuição, expiração, canais.Padrão de uso.TTL baixo = re-trabalho.
🖥️
INFRAESTRUTURA · 5 indicadores

Cluster Nodes

❓ Os 4 servidores têm CPU, memória, disco e rede com folga?

O chão de fábrica: CPU, memória, disco, rede e carga por nó (memory01–04). Antecipa um disco enchendo ou um nó afogando antes de virar lentidão.

CPU % por nó ● ao vivo

Uso de processador de cada servidor. Baixo e equilibrado = muita folga pra crescer.

Memória disponível por nó (GB) ● ao vivo

RAM livre em cada servidor. Bastante disponível = absorve picos sem risco.

Disco usado (média do cluster) ● ao vivo

Ocupação consolidada. Verde = folga confortável por muito tempo.

📋 Todos os indicadores deste painel

IndicadorO que medeO que representaPor que importa
CPU Usage por nóProcessador.Esforço de cada servidor.Antecipa nó afogado.
Memória usada / disponívelRAM consumida e livre.Folga pra picos.Sem folga = risco OOM.
Disco usado / disponívelOcupação de disco.Tempo até encher.Avisa semanas antes.
Network in/outTráfego por nó.Volume de comunicação.Picos = sync ou abuso.
Load AverageCarga média.Pressão sustentada.Tendência de saturação.
🌐
DISPONIBILIDADE · 3 indicadores

Gateway API

❓ A porta de entrada responde rápido, vista de fora?

A experiência do cliente externo: sondas batem na API de fora pra dentro e medem latência real ponta a ponta — como um usuário faria.

Latência externa do Gateway (ms) ● ao vivo

Tempo de resposta medido de fora, incluindo rede e proxy. Baixíssimo = a porta de entrada não é gargalo.

Disponibilidade do endpoint público exemplo

Verificação contínua de que o serviço responde. (A página que você está vendo também roda neste cluster.)

📋 Todos os indicadores deste painel

IndicadorO que medeO que representaPor que importa
Gateway UP / Traefik UPDisponibilidade vista de fora.O serviço acessível ao cliente.O SLA que o cliente sente.
Latência (ms)Tempo de resposta externo.Velocidade ponta a ponta.Inclui rede e proxy.
Response TimeHistórico de latência.Tendência externa.Detecta degradação.
🔐
SEGURANÇA · 5 indicadores

Credential Access Audit

❓ Quem acessou quais segredos, e tentativas indevidas foram bloqueadas?

A trilha de auditoria (ISO 27001). Todo acesso a credencial é registrado: quem, qual segredo, concedido ou negado — incluindo tentativas cross-project (um projeto tentando ler segredo de outro). Prova de governança. (Painéis baseados em logs Loki — exibidos aqui de forma ilustrativa.)

Decisões por minuto (concedido vs negado) — ilustrativo exemplo

Cada acesso é uma decisão auditada. O bloqueio visível é a segurança funcionando.

Acessos por projeto (24h) — ilustrativo exemplo

Distribuição de quem consome segredos. Um pico anômalo seria investigado.

Negações por motivo (24h) — ilustrativo exemplo

Cross-project = isolamento entre projetos funcionando — o controle que protege cada cliente.

📋 Todos os indicadores deste painel

IndicadorO que medeO que representaPor que importa
Decisions per minuteAcessos por minuto, por decisão.Atividade e bloqueios ao vivo.Bloqueio = controle ativo.
Top secrets accessedSegredos mais lidos.O crítico do dia a dia.Foco de rotação.
Cross-project DENIEDTentativas barradas entre projetos.Isolamento multi-tenant.Clientes não se enxergam.
Projects with most accessesQuem mais usa o cofre.Distribuição de uso.Anomalia = investigação.
Denied by reasonNegações por causa.Padrão das tentativas barradas.Eficácia das políticas.
📊
INFRAESTRUTURA · 4 indicadores

Swarm Nodes

❓ Raio-x rápido da saúde física do cluster.

A versão resumida e visual da infraestrutura — CPU, disco e carga num relance.

Uso de filesystem (%) ● ao vivo

Ocupação do disco, consolidada. Verde = folga confortável.

Load por nó ● ao vivo

Carga de cada servidor. Equilíbrio = cluster bem distribuído.

CPU % por nó ● ao vivo

Processador por servidor, agregado.

📋 Todos os indicadores deste painel

IndicadorO que medeO que representaPor que importa
CPU / Memory por nóProcessador e RAM.Esforço e equilíbrio.Detecta nó sobrecarregado.
Disk I/O / NetworkDisco e rede.Atividade de armazenamento e comunicação.Picos = backup/consolidação.
Load AverageCarga média.Pressão sustentada.Tendência de saturação.
Filesystem UsageUso do disco.Tempo até encher.Alerta visual de capacidade.