Garantir o equilíbrio entre eficiência e escalabilidade é um dos principais desafios dos Data Centers que operam com IA. Com maior potencial de escalabilidade, o data center se adapta às demandas voláteis do mercado, o que o torna mais eficiente no médio a longo prazo — tanto do aspecto financeiro, como energético.
Como vimos na primeira parte deste material sobre escalabilidade em data centers de IA, escalar significa responder a algumas questões fundamentais sobre prontidão da infraestrutura, otimização de desempenho, eficiência energética e conformidade regulatória.
Encontrar o equilíbrio certo entre desempenho, custo e utilização de recursos é crucial. Questões como alocação dinâmica de recursos, tratamento eficiente de dados, redes de alta velocidade, práticas sustentáveis, segurança robusta e automação entram nesta equação, assim como requisitos de confiabilidade e de redução de consumo de energia, através da integração de fontes de energia sustentáveis e sistemas de resfriamento eficientes.
Em relação à confiabilidade, um cuidado que deve ser tomado na hora da contratação de um data center está relacionado com sua redundância. Os data centers da Ascenty, por exemplo, são classificados como TIER nível 3. De acordo com o Uptime Institute, a Ascenty oferece 99,982% de disponibilidade.
Melhorias na eficiência energética são essenciais para atingir a meta de 99,999% de disponibilidade de serviço. Sistemas de energia e refrigeração confiáveis reduzem o tempo de inatividade, ajudando a garantir a continuidade dos serviços do data center.
Um aspecto frequentemente mal compreendido da infraestrutura de IA são os requisitos de confiabilidade. Muitos no setor presumem que as cargas de trabalho de IA, especialmente para treinamento, devem aderir aos mesmos padrões de disponibilidade de Nível 3 que os serviços tradicionais baseados em nuvem. Esse equívoco decorre da semelhança entre a inferência de IA e os serviços de nuvem, onde confiabilidade e disponibilidade são fundamentais para atender usuários finais por meio de APIs em aplicativos comerciais. No entanto, o treinamento de IA é um cenário totalmente diferente, que não se encaixa perfeitamente nos modelos tradicionais de confiabilidade de data center.
Em ambientes de nuvem tradicionais, os padrões de Nível 3 visam garantir a disponibilidade contínua do serviço, o que faz sentido para cargas de trabalho de inferência de IA. No entanto, o treinamento em IA funciona de forma muito diferente. O treinamento de modelos de IA em larga escala ocorre em clusters de HPC e supercomputadores, não em ambientes de nuvem padrão. No treinamento em IA, o ponto de verificação é usado como método de backup, normalmente a cada 30 minutos. Isso significa que, em caso de queda de energia ou falha do sistema, no máximo 30 minutos de trabalho computacional são perdidos. Isso altera fundamentalmente a economia e os requisitos de confiabilidade do sistema durante o treinamento, pois o risco e o custo do tempo de inatividade são mitigados por esse processo frequente de ponto de verificação.
Embora a disponibilidade durante curtos períodos de inatividade (como aqueles gerenciados por pontos de verificação) não seja uma preocupação significativa no treinamento de IA, há outros aspectos da disponibilidade que são importantes, especialmente para paralisações de longo prazo. Por exemplo, a fibra redundante dupla é frequentemente recomendada para evitar falhas de rede, especialmente se ela atender a vários megawatts (MW) de capacidade. O custo de uma conexão de fibra redundante costuma ser menor do que o custo de recuperação de uma queda de rede nesses grandes sistemas.
A redundância de data centers é uma questão estratégica que não pode ser ignorada. Garante que o data center continue operando mesmo em caso de falhas, o que é crucial para empresas que dependem de serviços contínuos.
Classificação dos Data Centers por Redundância (Tiers):
Exemplos de Redundância em data centers
Quem busca otimizar o uso dos seus recursos de TI para gerar valor deve estar atento às questões de redundância. A Ascenty oferece níveis de disponibilidade que superam os padrões TIER III, com redundância total e certificações internacionais.
Em data centers baseados em IA, os requisitos de energia e resfriamento são altamente dependentes do tipo de carga de trabalho — seja treinamento de IA ou inferência. Por isso, a redundância de resfriamento é outra área que deve ser cuidadosamente considerada em ambientes de treinamento de IA.
As soluções de resfriamento para data centers de IA são inevitavelmente influenciadas por dois fatores principais: arquitetura de rede e densidade de potência dos racks. Racks de alta densidade, repletos de GPUs que consomem muita energia, geram muito mais calor do que os racks de computação tradicional e, à medida que a densidade de potência aumenta, o resfriamento a ar se torna cada vez mais ineficiente.
“Chegamos a um limite técnico do resfriamento a ar. Em sistemas cada vez mais densos, o ar não supre mais a necessidade que o líquido supre. O DLC vai ser adotado como padrão daqui em diante pelos grandes fabricantes e, consequentemente, os grandes fornecedores de data centers vão seguir no caminho construtivo para suprir a demanda avassaladora que vem surgindo a cada dia”, diz Rafael Astuto, gerente executivo de engenharia de vendas da Ascenty.
Três dos métodos de resfriamento mais comuns são o DLC (Resfriamento Líquido Direto), mencionado por Astuto, o RDX (Resfriamento por Porta Traseira), e o Resfriamento por imersão, cada um com suas próprias vantagens e desafios, como já vimos aqui. O RDX continua sendo uma escolha popular para cargas de trabalho de inferência com densidades de energia moderadas e menos demandas de rede, enquanto o DLC é o método preferido para treinamento de IA, onde configurações densas de GPU e cabeamento extenso exigem resfriamento mais robusto. Já o resfriamento por imersão, embora promissor, continua em estágios iniciais e enfrenta desafios relacionados à compatibilidade e à maturidade do mercado.
Sistemas DLC e RDHx são projetados para aumentar a escalabilidade e a eficiência energética das cargas de trabalho de IA.
E entendendo a demanda do mercado, “a Ascenty tem se preparado para seguir esse viés e adotar a tecnologia de DLC e as melhores práticas do mercado alinhadas a sua adoção”, finaliza Astuto.
Data Centers exigem abordagens fundamentalmente diferentes para redes, resfriamento e distribuição de energia para lidar com as cargas de trabalho de IA
Data centers estão enfrentando uma transformação de US$ 6,7 trilhões até 2030 para lidar com IA. Seu parceiro de infraestrutura não é mais apenas um fornecedor. É sua vantagem competitiva.
Com a IA impulsionando 70% das oportunidades de receita e racks precisando de até 60 kW de energia, o resfriamento a ar deixou de ser uma boa opção.
Para reduzir sua pegada ambiental data centers estão migrando para o consumo zero de água, reciclando e-lixo e implementando sistemas de resfriamento otimizados por IA
Cada solicitação de IA tem um custo ambiental que ignoramos. O desafio da sustentabilidade é real e os data centers são importantes aliados na sua superação
Para reduzir sua pegada ambiental data centers estão migrando para o consumo zero de água, reciclando e-lixo e implementando sistemas de resfriamento otimizados por IA
Aproveite nossas promoções de renovação
Clique aquiPara continuar navegando como visitante, vá por aqui.
Cadastre-se grátis, leia até 5 conteúdos por mês,
e receba nossa newsletter diária.
Já recebe a newsletter? Ative seu acesso