Cluster not ready no quorum? (500)
Objetivo
Descreverei os procedimentos necessários para recuperação do cluster Proxmox após a perda de parte dos servidores. Em um cenário onde ficamos, a princípio, com menos de 50% dos servidores online, é esperado um erro “no quorum? (500)”. Então tentarei explicar o porque do cluster ficar em “cluster not ready” e como podemos forçar o Proxmox a voltar a funcionar mesmo nessa condição.
Não deixe de ler nosso artigo “Jornada Proxmox VE” onde falamos, antes de mais nada, do passo a passo de como subir um cluster Proxmox com Ceph.
Porque nosso Cluster Proxmox Fica como not ready?
A configuração padrão do Proxmox define um valor para o numero de nodes (servidores físicos) “aceitáveis” fora de operação antes do sistema de cluster entrar em estado de block. Desse modo, espero que hajam alguns sintomas que poderão ser facilmente identificados nesse tipo de falha. Então, observe se você passa pelos mesmos sintomas antes de fazer qualquer alteração no sistema:
- Sobretudo, login no Proxmox não funciona pelo front End. Apesar da interface de login estar disponível, ele não permite o login, dando a impressão de que estamos errando a senha.
- Do mesmo modo, qualquer VM ou Container não pode ser iniciado via CLI (erro cluster not ready – no quorum)
Obs: Total votes -> mostra o numero de nodes online
Vamos ver tudo isso passo a passo.
Consultando os nós do cluster PVE
Então, os nodes disponíveis podem ser consultados e alterado com os comandos abaixo:
[root@PVE01 ~]#pvecm status #Para analise de estado do cluster
Agora, vamos interpretar a saída do comando:
- Quorum: mostra o mínimo de nodes que precisam estar online para o sistema se tornar disponível e o estado do cluster como blocked caso esteja bloqueado por não ter o numero mínimo de nodes (chamado nesse contexto de votes)
Resolvendo o probelma de no quorum? (500)
[root@PVE01 ~]#cat /etc/pve/corosync.conf # Mostra a configuração detalhada de todos os nodes do cluster [root@PVE01 ~]#pvecm expected X #Altera o numero minimo de nodes esperado para tornar o cluster operacional #ex: pvecm expected 2 #Altera o cluster para subir com no monimo 2 nodes de pé
Um pouco mais sobre o erro
O erro “Cluster not ready no quorum (500)” em Proxmox ocorre antes de mais nada, quando o cluster Proxmox não tem quórum, o que significa que ele não tem o número mínimo de nós ativos para continuar funcionando.
Principais causas da falha
Existem, então, várias razões pelas quais o erro “Cluster not ready no quorum (500)” pode ocorrer em Proxmox:
1. Falha do nó do cluster:
Primeiro, se um dos nós do cluster falhar ou desligar, o quórum não será atingido e o erro pode ocorrer.
2. Configuração incorreta de quórum:
Se por outro lado, as configurações de quórum forem configuradas incorretamente no arquivo corosync.conf, isso pode resultar em um erro de falta de quórum.
3. Problemas de rede:
No entanto, se houver problemas com a conexão de rede entre os nós do cluster, isso pode resultar na perda do quórum.
4. Alterações na topologia do cluster:
Agora, se houver alterações na topologia do cluster, como alterar o número ou a localização dos nós, pode ser necessário reconfigurar as configurações de quórum para refletir essas mudanças.
5. Problemas no software de cluster:
Às vezes, problemas no próprio software de cluster podem causar erros de quórum.
Desse modo, podemos ter alhas no Proxmox Cluster por uma variedade de fatores, incluindo problemas técnicos, erros de configuração e problemas de rede. A solução para esses problemas então, pode incluir ajustar a configuração de quórum, reiniciar os serviços do Proxmox Cluster e/ou trabalhar com o suporte técnico da Proxmox para solucionar o problema.
Outras formas de resolver
Para resolver esse erro, vimos então, que você precisa ter pelo menos metade dos nós do cluster ativos e conectados, além de ter as configurações de quórum corretas para o seu cluster. Vimos ainda que, uma maneira de redefinir o quórum é alimentar um nó inativo antes de tentar adicionar outro nó.
Por outro lado, ocê também pode tentar ajustar as configurações do quórum em seu arquivo corosync.conf para garantir que ele reflita a topologia do seu cluster. No entanto, devemos certificar de que os nós que estão em standby são considerados em sua configuração de quórum.
Por fim, utra maneira de resolver esse erro é reiniciando o corosync e o pacemaker no nó ativo. Então, Isso reinicializará o status do cluster e pode permitir que você tenha um quórum novamente.
Última forma
Referência de comandos: https://pve.proxmox.com/pve-docs/pve-admin-guide.html#_quorum