O GPT-3, da OpenAI é, sem dúvida, o mais famoso modelo de Deep Learning criado nos últimos anos. E uma das coisas que mais impressiona nele é o seu tamanho: 175 bilhões de parâmetro. Pois o Google acaba de anunciar a criação de um novo modelo com 1,6 trilhão de parâmetros.
Os parâmetros são conhecidos como a chave para algoritmos de aprendizado de máquina. Quanto maior o número de parâmetros, mais sofisticado pode ser um modelo. Mas aumnetar a quantidade de parâmetros não é uma tarefa fácil. Além do custo excessivo, o treinamento dos parâmetros de modelos de linguagem também requer uma grande quantidade de recursos e extrema capacidade computacional.
Para resolver esse problema, os pesquisadores do Google desenvolveram uma técnica que usa apenas um subconjunto dos elementos de um modelo de linguagem. Eles o chamaram de Switch Transformer. E o construíram tendo em mente o princípio de maximizar a contagem de parâmetros de um modelo de uma forma simples e computacionalmente eficiente. A ideia é fazer mais com menos poder de processamento, mantendo os custos computacionais sob controle.
Este é um conteúdo exclusivo para assinantes.
Cadastre-se grátis para ler agora
e acesse 5 conteúdos por mês.
É assinante ou já tem senha? Faça login. Já recebe a newsletter? Ative seu acesso.
Se você já recebe nossas newsletters,
preencha seu e-mail que lhe mandaremos instruções
VoltarCrie sua senha para o e-mail
e atualize suas informações
É assinante ou já tem senha? Faça login. Já recebe a newsletter? Ative seu acesso.
Cadastre-se grátis, leia até 5 conteúdos por mês,
e receba nossa newsletter diária.
VoltarPronto! Só falta um passo.
Clique no link do e-mail que enviamos para
retornar aqui e finalizar seu cadastro.