s
360°

Garantir o equilíbrio entre eficiência e escalabilidade é um dos principais desafios dos Data Centers que operam com IA. Com maior potencial de escalabilidade, o data center se adapta às demandas voláteis do mercado, o que o torna mais eficiente no médio a longo prazo — tanto do aspecto financeiro, como energético.

Como vimos na primeira parte deste material sobre escalabilidade em data centers de IA, escalar significa responder a algumas questões fundamentais sobre prontidão da infraestrutura, otimização de desempenho, eficiência energética e conformidade regulatória.

Encontrar o equilíbrio certo entre desempenho, custo e utilização de recursos é crucial. Questões como alocação dinâmica de recursos, tratamento eficiente de dados, redes de alta velocidade, práticas sustentáveis, segurança robusta e automação entram nesta equação, assim como requisitos de confiabilidade e de redução de consumo de energia, através da integração de fontes de energia sustentáveis e sistemas de resfriamento eficientes.

CADASTRE-SE GRÁTIS PARA ACESSAR 5 CONTEÚDOS MENSAIS

Já recebe a newsletter? Ative seu acesso

Ao cadastrar-se você declara que está de acordo
com nossos Termos de Uso e Privacidade.

Cadastrar

Em relação à confiabilidade, um cuidado que deve ser tomado na hora da contratação de um data center está relacionado com sua redundância. Os data centers da Ascenty, por exemplo, são classificados como TIER nível 3. De acordo com o Uptime Institute, a Ascenty oferece 99,982% de disponibilidade.

Melhorias na eficiência energética são essenciais para atingir a meta de 99,999% de disponibilidade de serviço. Sistemas de energia e refrigeração confiáveis reduzem o tempo de inatividade, ajudando a garantir a continuidade dos serviços do data center.

Confiabilidade

Um aspecto frequentemente mal compreendido da infraestrutura de IA são os requisitos de confiabilidade. Muitos no setor presumem que as cargas de trabalho de IA, especialmente para treinamento, devem aderir aos mesmos padrões de disponibilidade de Nível 3 que os serviços tradicionais baseados em nuvem. Esse equívoco decorre da semelhança entre a inferência de IA e os serviços de nuvem, onde confiabilidade e disponibilidade são fundamentais para atender usuários finais por meio de APIs em aplicativos comerciais. No entanto, o treinamento de IA é um cenário totalmente diferente, que não se encaixa perfeitamente nos modelos tradicionais de confiabilidade de data center.

Em ambientes de nuvem tradicionais, os padrões de Nível 3 visam garantir a disponibilidade contínua do serviço, o que faz sentido para cargas de trabalho de inferência de IA. No entanto, o treinamento em IA funciona de forma muito diferente. O treinamento de modelos de IA em larga escala ocorre em clusters de HPC e supercomputadores, não em ambientes de nuvem padrão. No treinamento em IA, o ponto de verificação é usado como método de backup, normalmente a cada 30 minutos. Isso significa que, em caso de queda de energia ou falha do sistema, no máximo 30 minutos de trabalho computacional são perdidos. Isso altera fundamentalmente a economia e os requisitos de confiabilidade do sistema durante o treinamento, pois o risco e o custo do tempo de inatividade são mitigados por esse processo frequente de ponto de verificação.

Embora a disponibilidade durante curtos períodos de inatividade (como aqueles gerenciados por pontos de verificação) não seja uma preocupação significativa no treinamento de IA, há outros aspectos da disponibilidade que são importantes, especialmente para paralisações de longo prazo. Por exemplo, a fibra redundante dupla é frequentemente recomendada para evitar falhas de rede, especialmente se ela atender a vários megawatts (MW) de capacidade. O custo de uma conexão de fibra redundante costuma ser menor do que o custo de recuperação de uma queda de rede nesses grandes sistemas.

A redundância de data centers é uma questão estratégica que não pode ser ignorada. Garante que o data center continue operando mesmo em caso de falhas, o que é crucial para empresas que dependem de serviços contínuos.

Classificação dos Data Centers por Redundância (Tiers):

  • Tier I:
Sem redundância, apenas um caminho para energia e refrigeração. Baixa disponibilidade e interrupções frequentes são esperadas.
  • Tier II:
Alguma redundância, mas ainda com interrupções durante a manutenção.
  • Tier III:
Infraestrutura totalmente redundante, com disponibilidade de 99,982% e interrupções limitadas a 1,6 horas por ano.

Exemplos de Redundância em data centers

  • Redundância de Energia: Geradores de energia de backup, fontes de alimentação ininterruptas (UPS) e sistemas de distribuição elétrica redundantes.
  • Redundância de Refrigeração: Sistemas de ar-condicionado redundantes e sistemas de resfriamento de água duplos.
  • Redundância de Rede: Múltiplos links de comunicação, switches e roteadores redundantes.
  • Redundância de Servidores: Sistemas de armazenamento e processamento duplicados.

Quem busca otimizar o uso dos seus recursos de TI para gerar valor deve estar atento às questões de redundância. A Ascenty oferece níveis de disponibilidade que superam os padrões TIER III, com redundância total e certificações internacionais.

Resfriamento

Em data centers baseados em IA, os requisitos de energia e resfriamento são altamente dependentes do tipo de carga de trabalho — seja treinamento de IA ou inferência. Por isso, a redundância de resfriamento é outra área que deve ser cuidadosamente considerada em ambientes de treinamento de IA.

As soluções de resfriamento para data centers de IA são inevitavelmente influenciadas por dois fatores principais: arquitetura de rede e densidade de potência dos racks. Racks de alta densidade, repletos de GPUs que consomem muita energia, geram muito mais calor do que os racks de computação tradicional e, à medida que a densidade de potência aumenta, o resfriamento a ar se torna cada vez mais ineficiente.

“Chegamos a um limite técnico do resfriamento a ar. Em sistemas cada vez mais densos, o ar não supre mais a necessidade que o líquido supre. O DLC vai ser adotado como padrão daqui em diante pelos grandes fabricantes e, consequentemente, os grandes fornecedores de data centers vão seguir no caminho construtivo para suprir a demanda avassaladora que vem surgindo a cada dia”, diz Rafael Astuto, gerente executivo de engenharia de vendas da Ascenty.

Três dos métodos de resfriamento mais comuns são o DLC (Resfriamento Líquido Direto), mencionado por Astuto, o RDX (Resfriamento por Porta Traseira), e o Resfriamento por imersão, cada um com suas próprias vantagens e desafios, como já vimos aqui. O RDX continua sendo uma escolha popular para cargas de trabalho de inferência com densidades de energia moderadas e menos demandas de rede, enquanto o DLC é o método preferido para treinamento de IA, onde configurações densas de GPU e cabeamento extenso exigem resfriamento mais robusto. Já o resfriamento por imersão, embora promissor, continua em estágios iniciais e enfrenta desafios relacionados à compatibilidade e à maturidade do mercado.

Sistemas DLC e RDHx são projetados para aumentar a escalabilidade e a eficiência energética das cargas de trabalho de IA.

E entendendo a demanda do mercado, “a Ascenty tem se preparado para seguir esse viés e adotar a tecnologia de DLC e as melhores práticas do mercado alinhadas a sua adoção”, finaliza Astuto.