Corrigido! no quorum? (500) Proxmox cluster not ready

Fix PVE Proxmox

Cluster not ready no quorum? (500)

Objetivo

Descreverei os procedimentos necessários para recuperação do cluster Proxmox após a perda de parte dos servidores. Em um cenário onde ficamos, a princípio, com menos de 50% dos servidores online, é esperado um erro “no quorum? (500)”. Então tentarei explicar o porque do cluster ficar em “cluster not ready” e como podemos forçar o Proxmox a voltar a funcionar mesmo nessa condição.

Não deixe de ler nosso artigo “Jornada Proxmox VE” onde falamos, antes de mais nada, do passo a passo de como subir um cluster Proxmox com Ceph.

Porque nosso Cluster Proxmox Fica como not ready?

A configuração padrão do Proxmox define um valor para o numero de nodes (servidores físicos) “aceitáveis” fora de operação antes do sistema de cluster entrar em estado de block. Desse modo, espero que hajam alguns sintomas que poderão ser facilmente identificados nesse tipo de falha. Então, observe se você passa pelos mesmos sintomas antes de fazer qualquer alteração no sistema:

  • Sobretudo, login no Proxmox não funciona pelo front End. Apesar da interface de login estar disponível, ele não permite o login, dando a impressão de que estamos errando a senha.
  • Do mesmo modo, qualquer VM ou Container não pode ser iniciado via CLI (erro cluster not ready – no quorum)
    Obs: Total votes -> mostra o numero de nodes online

Vamos ver tudo isso passo a passo.

Consultando os nós do cluster PVE

Então, os nodes disponíveis podem ser consultados e alterado com os comandos abaixo:

[root@PVE01 ~]#pvecm status #Para analise de estado do cluster 

Agora, vamos interpretar a saída do comando:

  • Quorum: mostra o mínimo de nodes que precisam estar online para o sistema se tornar disponível e o estado do cluster como blocked caso esteja bloqueado por não ter o numero mínimo de nodes (chamado nesse contexto de votes)

Resolvendo o probelma de no quorum? (500)

cluster not ready - no quorum? (500)
[root@PVE01 ~]#cat /etc/pve/corosync.conf # Mostra a configuração detalhada de todos os nodes do cluster
[root@PVE01 ~]#pvecm expected X #Altera o numero minimo de nodes esperado para tornar o cluster operacional
#ex: pvecm expected 2 #Altera o cluster para subir com no monimo 2 nodes de pé

Um pouco mais sobre o erro

O erro “Cluster not ready no quorum (500)” em Proxmox ocorre antes de mais nada, quando o cluster Proxmox não tem quórum, o que significa que ele não tem o número mínimo de nós ativos para continuar funcionando.

Principais causas da falha

Existem, então, várias razões pelas quais o erro “Cluster not ready no quorum (500)” pode ocorrer em Proxmox:

1. Falha do nó do cluster:

Primeiro, se um dos nós do cluster falhar ou desligar, o quórum não será atingido e o erro pode ocorrer.

2. Configuração incorreta de quórum:

Se por outro lado, as configurações de quórum forem configuradas incorretamente no arquivo corosync.conf, isso pode resultar em um erro de falta de quórum.

3. Problemas de rede:

No entanto, se houver problemas com a conexão de rede entre os nós do cluster, isso pode resultar na perda do quórum.

4. Alterações na topologia do cluster:

Agora, se houver alterações na topologia do cluster, como alterar o número ou a localização dos nós, pode ser necessário reconfigurar as configurações de quórum para refletir essas mudanças.

5. Problemas no software de cluster:

Às vezes, problemas no próprio software de cluster podem causar erros de quórum.

Desse modo, podemos ter alhas no Proxmox Cluster por uma variedade de fatores, incluindo problemas técnicos, erros de configuração e problemas de rede. A solução para esses problemas então, pode incluir ajustar a configuração de quórum, reiniciar os serviços do Proxmox Cluster e/ou trabalhar com o suporte técnico da Proxmox para solucionar o problema.

Outras formas de resolver

Para resolver esse erro, vimos então, que você precisa ter pelo menos metade dos nós do cluster ativos e conectados, além de ter as configurações de quórum corretas para o seu cluster. Vimos ainda que, uma maneira de redefinir o quórum é alimentar um nó inativo antes de tentar adicionar outro nó.

Por outro lado, ocê também pode tentar ajustar as configurações do quórum em seu arquivo corosync.conf para garantir que ele reflita a topologia do seu cluster. No entanto, devemos certificar de que os nós que estão em standby são considerados em sua configuração de quórum.

Por fim, utra maneira de resolver esse erro é reiniciando o corosync e o pacemaker no nó ativo. Então, Isso reinicializará o status do cluster e pode permitir que você tenha um quórum novamente.

Última forma

Se ainda estiver enfrentando problemas após tentar essas soluções, entre em contato com o suporte da Proxmox para obter assistência adicional.

Referência de comandos: https://pve.proxmox.com/pve-docs/pve-admin-guide.html#_quorum

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.