The Shift

Futuro do treinamento de LLMs é federado

Bolsos fundos, acesso a talentos e investimentos massivos em infraestrutura de computação explicam apenas parcialmente por que a maioria dos grandes avanços em Inteligência Artificial veio de um grupo seleto de empresas de Big Tech. Outro motivo relevante é o amplo acesso a dados diversos, extensos e de alta qualidade, graças à coleta massiva que fazem como operadoras de plataformas digitais. Todo esse Big Data é um rico recurso estratégico que pode ser usado para desenvolver e treinar algoritmos complexos de aprendizado de máquina — mas é um recurso que está fora do alcance da maioria das empresas.

Agora, o Aprendizado Federado (FL) começa a ser apontado como uma alternativa atraente a esse cenário (a exemplo do que já vem acontecendo no mercado de Machine Learning), permitindo que uma parte maior da economia colha os benefícios da IA, ao reduzir as restrições de acesso a dados e de recursos computacionais para o treinamento IA. Como?

“Permitindo que um modelo seja treinado em vários servidores descentralizados, controlados por diferentes organizações, cada um com seus próprios dados locais”, explica Eduardo Abbud, sócio fundador da 7D Analytics.  “Uma abordagem colaborativa para treinar modelos de IA pode gerar melhores resultados, mas exige encontrar parceiros com dados que complementem os que a empresa já possui”, completa.

Recentemente, pesquisadores da Universidade de Cambridge e Flower Labs mostraram que é possível usar abordagens distribuídas e baratas de treinamento e acesso a dados para pré-treinamento colaborativo, reproduzível e dimensionável de  LLMs, na escala de /bilhões de parâmetros. Esses pesquisadores estão convencidos de que o futuro do pré-treinamento de LLM está nas fontes de dados distribuídas que o Aprendizado Federado pode reunir.

A principal inovação está em como o treinamento acontece. Em vez de enviar os dados brutos para um local central, cada nó treina uma cópia local do LLM em seus próprios dados. Então, apenas as atualizações do modelo (significativamente menores do que os próprios dados brutos) são compartilhadas com um servidor central. Este servidor agrega essas atualizações para melhorar o modelo LLM global.

Esta abordagem distribuída oferece duas vantagens:

Mas também apresenta algum desafios. Entre eles:

Ao fazer a transição para uma estrutura de aprendizagem federada, os LLMs podem utilizar uma gama mais ampla de fontes de dados e recursos computacionais, promovendo inovação e inclusão no desenvolvimento de IA.

Um exemplo? O setor de saúde apresenta um caso de uso convincente para aprendizado federado no desenvolvimento de Large Language Model (LLM). Imagine uma rede de hospitais e clínicas equipadas com dispositivos de ponta capazes de processar dados de pacientes localmente. Essas instituições, vinculadas por rígidas regulamentações de privacidade de dados, podem colaborar para treinar um LLM para prever resultados de pacientes. Essa abordagem oferece uma solução poderosa que alavanca o conhecimento coletivo da rede enquanto protege a privacidade do paciente.