Cluster HA (high availiabity) Proxmox
Jornada Proxmox Parte 6
Versão 1
Emissão: 22 de setembro de 2022
Validade: Indeterminada
Tema: Proxmox Cluster HA
Objetivo
Antes de tudo, vamos orientar a equipe técnica na conceituação do Proxmox Cluster HA. Vamos entender o que é uma configuração do cluster PVE e grupos de alta disponibilidade. Temos três servidores Proxmox montados no nosso laboratório da RunbookBR. Desse modo, esse material visa resolver a seguinte questão: O que é um HA Cluster e quais são as recomendações para busca da alta disponibilidade? Configurar adequadamente o HA Groups em um Cluster PVE, passa primeiramente por entender os conceitos acerca desse tema, sendo por consequência premissa para garantia da alta disponibilidade.
Este artigo foi escrito baseado no treinamento oficial de Proxmox da RunbookBR, que não é comercializado, portanto, restrito a aplicação para nossas equipes internas.
Pré-Requisitos
- É importante antes de mais nada ter realizado os passos citados na parte 1 da Jornada Proxmox da RunbookBR.
- Do mesmo modo, torna-se imprescindível ter concluído a parte 2 da Jornada Proxmox.
- Em Seguida, precisamos ter realizado as configurações de interfaces conforme a parte 3.
- A parte 4 da Jornada Proxmox nos dirá muito sobre a conceituação do Ceph.
- Na parte 5, teremos configurado nosso Cluster Ceph.
- Recomendo, da mesma forma, que você possua conhecimento básico em redes de computadores e familiaridade com termologias relacionadas a tecnologia da informação.
- Visando obter o melhor resultado com material é importante que você tenha montado um ambiente com pelo menos três servidores Proxmox, assim como nosso laboratório proposto.
Topologia Montada para o Laboratório do Cluster Proxmox
Dispomos no nosso laboratório de: 2 servidores Intel Xeon E31270, all flash com oito discos SSD e duas interfaces de rede Gigabit Ethernet cada e 16 GB RAM.
Da mesma forma, montamos um desktop Intel Core i5 2400 com um disco mecânico e 16 GB RAM e uma interface de rede, sendo que esta máquina não se comunica com a rede SAN.
O que é high availability?
Primeiramente precisamos entender que a alta disponibilidade, ou high availability (HA) é um conceito que se aplica não apenas ao Proxmox, mas à disponibilidade acordada com seus clientes para o tempo em que seus servidores estão online em um dado período, normalmente o uptime por mês ou ano.
Downtimes e disponibilidade
Para sistemas com downtime de 3,65 dias em um ano, consideramos uma alta disponibilidade de 99%.
Agora, downtime de 8,76 horas em um ano, nos remete a uma disponibilidade de 99,9%.
Quando falamos de 99,99% de disponibilidade, trabalhamos com downtime de até 52,56 minutos no ano.
Quanto mais noves formos adicionando ao nosso HA, menor será o tempo de downtime previsto no ano, podendo chegar aos absurdos 3,15 segundos em um ano no caso de uma disponibilidade de 99,99999%.
Com isso, temos que uma infraestrutura altamente disponível vai além de simplesmente colocar três servidores em cluster montados em um Rack. Precisamos cuidar a disponibilidade física, geográfica, elétrica e de link, por exemplo. São algumas variáveis que precisamos analisar para garantia da alta disponibilidade, mas vamos desenhar um cenário básico para perseguir nosso ambiente com 99,99%.
Topologia base de um Cluster HA
Abaixo deixarei um exemplo de uma Topologia básica para um HA padrão, onde teremos três zonas de disponibilidade, geograficamente apartadas. Dois destes servidores estarão atendidos por duas UPS e o terceiro servidor com uma única fonte elétrica. As zonas estão ligadas por um link dedicado e outro link privado no caso das Zonas A e B, enquanto a Zona C se liga as demais zonas apenas por um link privado.
Desse modo, garantimos uma redundância básica: física, geográfica, elétrica e de link.
Cluster HA com Duas Zonas de disponibilidade
Poderíamos montar nossa topologia apenas com duas zonas de disponibilidade? Sim, mas, precisamos pesar as contramedidas necessárias para atender nosso HA. Existem algumas questões como: O que acontece se em um cenário de três servidores a zona que carrega 2 servidores ficar fora?
Quorum mínimo
Lembre-se que a conta é simples. Se eu tenho três servidores e dois sites, um deles ficará com dois servidores e o outro ficará com um apenas. Nesse caso, o Proxmox vai conseguir rodar com um único servidor? A resposta padrão é não. Mesmo que esse servidor tenha 10 vezes o tamanho e capacidade dos demais servidores do cluster. Nesse cenário ocorreria um block do seu cluster devido ao número de nós disponíveis. Basicamente, por padrão, o cluster precisa de 51% dos servidores disponíveis para operação dos serviços. Desse modo, mesmo que você tenha 4 servidores no seu cluster, dois em cada zona de disponibilidade, se você perde uma zona, a outra vai ficar bloqueada por padrão.
No Quorum? (500)
Então quando for trabalhar com duas zonas de disponibilidade, tenha em mente que ações adicionais e que não serão exploradas neste artigo precisarão ser tomadas. Uma abordagem simples pode ser realizada para contornar esse lock. Tenha em mente que a ação que irei mencionar não impedirá a interrupção dos serviços, será um processo reativo para um pós-perda. Deixarei a referência desse procedimento, mas não tome isso como parte do nosso plano de HA. Estou falando do procedimento descrito no artigo: No Quorum? (500)
Conclusão
Enfim, vimos no artigo de hoje os conceitos de um cluster HA. Esses conceitos são importantes antes de planejar e configurar um cluster Proxmox Ceph garantindo de fato sua alta disponibilidade. Do mesmo modo, vimos as principais métricas de disponibilidade. Vimos ainda que trabalhar com duas zonas de disponibilidade é um risco que não recomendo correr.
Nesse ínterim, teremos nos próximos artigos dessa jornada nossa configuração de um HA Groups no Proxmox, finalizando assim nossas configurações para nosso cenário proposto de alta disponibilidade. Somando isso a nossa topologia proposta de três zonas de disponibilidade, teremos montado nosso ambiente com 99,99% de disponibilidade.
Não deixe de acompanhar a parte 7 dessa jornada. Ainda vamos finalizar passo a passo nosso HA Groups, configurar nossos containers e maquinas virtuais e ver na prática o live migration acontecendo.
Do mesmo modo, nosso canal no YouTube estará recebendo atualizações com dicas adicionais sobre o tema. Até o próximo artigo.