OmniMemory — Observabilidade ao Vivo

🚦

EXECUTIVO · 7 indicadores

Saúde da Produção

❓ O sistema está no ar, íntegro e respondendo AGORA?

O semáforo executivo — a primeira tela. Em poucos indicadores responde se o cérebro está vivo: quantas memórias guarda, se o banco principal roda, quanto disco há de folga e se a escrita flui. Um sim/não em 5 segundos.

Disco usado no cluster (%) ● ao vivo

Ocupação média do disco nos 4 servidores. Folga grande = espaço pra crescer por muito tempo.

Taxa de escrita (saves/seg) ● ao vivo

Memórias gravadas por segundo. Linha viva = o cérebro está aprendendo em tempo real.

Load por nó (memory01–04) ● ao vivo

Carga de trabalho de cada servidor. Equilíbrio baixo = cluster tranquilo, com folga enorme.

📋 Todos os indicadores deste painel

Indicador	O que mede	O que representa	Por que importa
Memórias totais	Memórias vivas no banco.	O tamanho do cérebro coletivo.	KPI de crescimento do ativo.
DB primary rodando	Se o nó primário do Postgres aceita escrita.	A espinha dorsal.	0 = ninguém grava.
Idade do backup (h)	Horas desde o último backup íntegro.	Garantia anti-desastre.	Alerta em 24h.
Embedding fallback (24h)	Buscas que caíram no caminho lento.	Sinal de saturação da geração de vetores.	Raiz do incidente 05/06.
Latência save p95	Tempo de gravação (95º pct).	Velocidade percebida.	Alvo < 2s.
Load por nó	Carga dos 4 servidores.	Distribuição saudável vs nó afogado.	Antecipa saturação.
Taxa de write	Gravações por segundo.	O pulso do aprendizado.	Zero abrupto = captura caiu.

🧠

VISÃO GERAL · 10 indicadores

Brain++ Health

❓ A 'mente' (memória + segurança + busca) funciona como um todo?

A visão consolidada: volume, integridade/segurança (assinatura e cifragem), busca semântica (cobertura de embeddings) e resiliência. Prova que não é um banco — é um sistema cognitivo governado.

Integridade HMAC (%) ● ao vivo

% das memórias com assinatura anti-adulteração. 100% = cada memória prova que não foi violada.

Cobertura de busca semântica (%) ● ao vivo

% das memórias já indexadas por significado. Em expansão ativa (backfill em curso) — quanto maior, mais do cérebro é 'buscável por sentido'.

Memórias ativas ao longo do tempo ● ao vivo

O crescimento do ativo de conhecimento. Curva ascendente = a plataforma acumula valor continuamente.

Memórias esquecidas (higiene cognitiva) ● ao vivo

O cérebro descarta o irrelevante — esquecer também é inteligência. Mantém o acervo enxuto, relevante e barato de buscar.

📋 Todos os indicadores deste painel

Indicador	O que mede	O que representa	Por que importa
Memories ativas	Total de memórias vivas.	Conhecimento coletivo.	KPI de crescimento.
Forgotten cumulativas	Memórias esquecidas.	Higiene cognitiva — esquece o irrelevante.	Evita ruído e custo.
Cobertura HMAC	% com assinatura.	Integridade anti-adulteração.	Segurança ISO 27001.
Cobertura embedding	% buscável por significado.	Qualidade do recall.	Gaps = busca cega.
Cobertura cifragem	% criptografado.	Confidencialidade em repouso.	Compliance.
Gateway latency p95	Latência da API.	Velocidade pra todos os agentes.	SLA de experiência.
Patroni replication lag	Atraso da réplica.	Atualização da cópia de segurança.	Janela de perda em failover.
Last successful backup	Tempo desde o backup.	Garantia anti-desastre.	Alerta de envelhecimento.
Top projetos por count	Quem mais usa o cérebro.	Adoção por produto/cliente.	Valor por frente.
Capture rate	Eventos de captura/s.	Aprendizado em tempo real.	Prova de captura viva.

🌙

COGNIÇÃO · 8 indicadores

Brain++ Neurônios

❓ Os processos cognitivos inspirados no sono estão rodando?

O diferencial científico. Inspirado em como o cérebro humano consolida memórias durante o sono, workers rodam em ciclos: DMN (conecta), NREM (consolida o importante, decai o irrelevante), REM (sintetiza insight), + Plasticidade e Resistência ao Decaimento. Prova que o cérebro processa e aprende enquanto 'dorme'.

Workers cognitivos no ar (de 10) ● ao vivo

Quantos dos workers Brain++ estão ativos agora. O time cognitivo completo de plantão.

NREM — promoções (consolidação) ● ao vivo

Memórias importantes promovidas a conhecimento consolidado — o 'sono profundo' separando sinal de ruído.

Curva de esquecimento (Ebbinghaus) — ilustrativo exemplo

Como a força de uma memória não-acessada cai com o tempo (lei de potência). Conceito implementado de verdade no decay.

Status dos workers (1=ativo) ● ao vivo

Cada série é um worker cognitivo. Linha no topo = de plantão; queda = ciclo travado (o anti-silêncio que monitoramos).

📋 Todos os indicadores deste painel

Indicador	O que mede	O que representa	Por que importa
Workers UP (DMN/NREM/REM/…)	Se cada worker cognitivo está ativo.	Os 'lobos' do cérebro funcionando.	Worker caído = função offline.
DMN edges inseridos	Conexões novas entre memórias.	Crescimento do grafo de conhecimento.	Cérebro mais conectado = mais inteligente.
NREM promovidos	Memórias consolidadas.	Aprendizado de longo prazo.	Separa sinal de ruído.
REM síntese gerada	Insights sintetizados no 'sonho'.	Conhecimento novo do existente.	Criatividade do sistema.
Plasticity / Decay-Resist	Plasticidade e proteção de memórias-chave.	Equilíbrio aprender x proteger.	Estabilidade cognitiva.
Consolidation Phase N1/N2/N3	Estágios do 'sono'.	Profundidade da consolidação.	Fidelidade ao modelo.
Duração / erros por worker	Tempo e falhas por ciclo.	Saúde operacional.	Erros = manutenção.
Tempo desde último ciclo OK	Liveness de cada worker.	Prova de execução real.	Detecta worker zumbi.

💾

PRODUTO · 6 indicadores

Memórias Vivas

❓ A memória está rápida, buscável e o cache economiza custo?

O coração do produto: volume ativo vs esquecido, cobertura de busca e o cache que decide quando uma busca é instantânea e barata vs quando chama o modelo de IA. Latências de salvar, buscar e gerar embedding.

Cobertura de busca semântica (%) ● ao vivo

% das memórias indexadas por significado. Em expansão (backfill em curso) — cada ponto torna mais do acervo buscável.

Pressão do cache (% do limite) ● ao vivo

Quanto da memória do cache está em uso. Bem abaixo do limite = folga enorme, sem descarte de dados quentes.

Memória do cache usada (MB) ● ao vivo

Consumo real do Redis ao longo do tempo. Estável e baixo = saudável.

Memórias ativas vs esquecidas exemplo

O ciclo de vida: o cérebro acumula o útil e descarta o irrelevante. Esquecer também é inteligência.

📋 Todos os indicadores deste painel

Indicador	O que mede	O que representa	Por que importa
Memórias ativas / esquecidas	Vivas vs decaídas.	Saúde do ciclo de vida.	Crescimento sem inchaço.
HMAC / Embedding coverage	Integridade e busca.	Qualidade e segurança.	Gaps = risco/recall cego.
Memórias por projeto	Distribuição por cliente.	Onde o cérebro é mais usado.	Adoção por frente.
save / search / embedding p50/p95/p99	Latências das operações.	Velocidade de aprender e lembrar.	p95 saudável < 500ms–2s.
Throughput (ops/s)	Operações por segundo.	Capacidade em uso.	Dimensiona escala.
Cache hit rate / fallback	% do cache vs caminho lento.	Eficiência de custo e latência.	Alto hit = economia.

🛡️

ALTA DISPONIBILIDADE · 6 indicadores

Patroni HA

❓ O banco sobrevive à queda de um servidor sem perder dados?

A prova de resiliência industrial. PostgreSQL com Patroni: um primário e réplicas sincronizadas. Se o primário cai, outro assume automaticamente em segundos, sem intervenção e sem perda.

Nós Postgres saudáveis ● ao vivo

Nós do cluster ativos. Vários = folga pra perder um sem dor — a essência da alta disponibilidade.

Réplicas sincronizadas ● ao vivo

Cópias quentes recebendo dados ao vivo, prontas pra assumir.

Papel por nó (1=Primary) ● ao vivo

Quem é o primário ao longo do tempo. Uma troca apareceria como degrau — e o sistema seguiria servindo.

📋 Todos os indicadores deste painel

Indicador	O que mede	O que representa	Por que importa
Postgres Running	Nós saudáveis.	Capacidade e folga.	Base da disponibilidade.
Primary / Replica	Papéis no cluster.	Topologia de HA.	Visibilidade de failover.
Streaming Replication	Réplicas recebendo ao vivo.	Cópias quentes.	Sincronismo = zero perda.
Timeline	Geração da linha do tempo.	Quantos failovers houve.	Histórico de continuidade.
DCS Last Seen	Saúde do consenso (etcd).	O árbitro que decide quem manda.	Falha = risco de split-brain.
Replication Lag	Atraso das réplicas.	Janela de perda em failover.	Perto de zero é o alvo.

⚡

DESEMPENHO · 7 indicadores

Redis Cache

❓ A camada de velocidade está rápida e sem desperdício?

O turbo: cache de embeddings, filas e dados quentes. Memória vs limite, evictions, fragmentação, comandos e o slowlog. Garante que a velocidade não vira gargalo nem custo escondido.

Uso do cache (% do limite) ● ao vivo

Pressão de memória. Bem abaixo de 85% (risco) = sem descarte forçado de dados.

Clientes conectados ● ao vivo

Quantos serviços usam o cache agora — workers, gateway e filas.

Chaves no cache ● ao vivo

Volume de dados quentes mantidos prontos pra resposta instantânea.

Acertos vs perdas do cache (/s) ● ao vivo

Hits = servido do cache (rápido/barato). Volume acompanha o tráfego da operação.

📋 Todos os indicadores deste painel

Indicador	O que mede	O que representa	Por que importa
Redis UP / Clients	Disponibilidade e conexões.	Vida e demanda do cache.	Base do que é rápido.
Memória / % maxmemory	Consumo vs limite.	Pressão de eviction.	>85% = perto de descartar.
Evictions / Fragmentation	Descartes e desperdício interno.	Pressão real de memória.	Alto = limpar/subir limite.
Hit rate	% de acerto.	Eficiência de custo/latência.	Alto = economia.
Top comandos / latência	Comandos dominantes e custo.	Onde está o esforço.	Identifica comando lento.
Slowlog (p99/count/max)	Comandos lentos registrados.	Onde a latência se esconde.	Diagnóstico de picos.
Keys por DB / TTL / Pubsub	Distribuição, expiração, canais.	Padrão de uso.	TTL baixo = re-trabalho.

🖥️

INFRAESTRUTURA · 5 indicadores

Cluster Nodes

❓ Os 4 servidores têm CPU, memória, disco e rede com folga?

O chão de fábrica: CPU, memória, disco, rede e carga por nó (memory01–04). Antecipa um disco enchendo ou um nó afogando antes de virar lentidão.

CPU % por nó ● ao vivo

Uso de processador de cada servidor. Baixo e equilibrado = muita folga pra crescer.

Memória disponível por nó (GB) ● ao vivo

RAM livre em cada servidor. Bastante disponível = absorve picos sem risco.

Disco usado (média do cluster) ● ao vivo

Ocupação consolidada. Verde = folga confortável por muito tempo.

📋 Todos os indicadores deste painel

Indicador	O que mede	O que representa	Por que importa
CPU Usage por nó	Processador.	Esforço de cada servidor.	Antecipa nó afogado.
Memória usada / disponível	RAM consumida e livre.	Folga pra picos.	Sem folga = risco OOM.
Disco usado / disponível	Ocupação de disco.	Tempo até encher.	Avisa semanas antes.
Network in/out	Tráfego por nó.	Volume de comunicação.	Picos = sync ou abuso.
Load Average	Carga média.	Pressão sustentada.	Tendência de saturação.

🌐

DISPONIBILIDADE · 3 indicadores

Gateway API

❓ A porta de entrada responde rápido, vista de fora?

A experiência do cliente externo: sondas batem na API de fora pra dentro e medem latência real ponta a ponta — como um usuário faria.

Latência externa do Gateway (ms) ● ao vivo

Tempo de resposta medido de fora, incluindo rede e proxy. Baixíssimo = a porta de entrada não é gargalo.

Disponibilidade do endpoint público exemplo

Verificação contínua de que o serviço responde. (A página que você está vendo também roda neste cluster.)

📋 Todos os indicadores deste painel

Indicador	O que mede	O que representa	Por que importa
Gateway UP / Traefik UP	Disponibilidade vista de fora.	O serviço acessível ao cliente.	O SLA que o cliente sente.
Latência (ms)	Tempo de resposta externo.	Velocidade ponta a ponta.	Inclui rede e proxy.
Response Time	Histórico de latência.	Tendência externa.	Detecta degradação.

🔐

SEGURANÇA · 5 indicadores

Credential Access Audit

❓ Quem acessou quais segredos, e tentativas indevidas foram bloqueadas?

A trilha de auditoria (ISO 27001). Todo acesso a credencial é registrado: quem, qual segredo, concedido ou negado — incluindo tentativas cross-project (um projeto tentando ler segredo de outro). Prova de governança. (Painéis baseados em logs Loki — exibidos aqui de forma ilustrativa.)

Decisões por minuto (concedido vs negado) — ilustrativo exemplo

Cada acesso é uma decisão auditada. O bloqueio visível é a segurança funcionando.

Acessos por projeto (24h) — ilustrativo exemplo

Distribuição de quem consome segredos. Um pico anômalo seria investigado.

Negações por motivo (24h) — ilustrativo exemplo

Cross-project = isolamento entre projetos funcionando — o controle que protege cada cliente.

📋 Todos os indicadores deste painel

Indicador	O que mede	O que representa	Por que importa
Decisions per minute	Acessos por minuto, por decisão.	Atividade e bloqueios ao vivo.	Bloqueio = controle ativo.
Top secrets accessed	Segredos mais lidos.	O crítico do dia a dia.	Foco de rotação.
Cross-project DENIED	Tentativas barradas entre projetos.	Isolamento multi-tenant.	Clientes não se enxergam.
Projects with most accesses	Quem mais usa o cofre.	Distribuição de uso.	Anomalia = investigação.
Denied by reason	Negações por causa.	Padrão das tentativas barradas.	Eficácia das políticas.

📊

INFRAESTRUTURA · 4 indicadores

Swarm Nodes

❓ Raio-x rápido da saúde física do cluster.

A versão resumida e visual da infraestrutura — CPU, disco e carga num relance.

Uso de filesystem (%) ● ao vivo

Ocupação do disco, consolidada. Verde = folga confortável.

Load por nó ● ao vivo

Carga de cada servidor. Equilíbrio = cluster bem distribuído.

CPU % por nó ● ao vivo

Processador por servidor, agregado.

📋 Todos os indicadores deste painel

Indicador	O que mede	O que representa	Por que importa
CPU / Memory por nó	Processador e RAM.	Esforço e equilíbrio.	Detecta nó sobrecarregado.
Disk I/O / Network	Disco e rede.	Atividade de armazenamento e comunicação.	Picos = backup/consolidação.
Load Average	Carga média.	Pressão sustentada.	Tendência de saturação.
Filesystem Usage	Uso do disco.	Tempo até encher.	Alerta visual de capacidade.

O Cérebro Coletivo sob vigilância total

O que é, e por que isto importa para os patrocinadores

🧠 O Cérebro

🛡️ Alta Disponibilidade

⚡ Velocidade

🌙 Cognição (Brain++)

📈 Observabilidade

🔐 Governança

Saúde da Produção

📋 Todos os indicadores deste painel

Brain++ Health

📋 Todos os indicadores deste painel

Brain++ Neurônios

📋 Todos os indicadores deste painel

Memórias Vivas

📋 Todos os indicadores deste painel

Patroni HA

📋 Todos os indicadores deste painel

Redis Cache

📋 Todos os indicadores deste painel

Cluster Nodes

📋 Todos os indicadores deste painel

Gateway API

📋 Todos os indicadores deste painel

Credential Access Audit

📋 Todos os indicadores deste painel

Swarm Nodes

📋 Todos os indicadores deste painel