O GPT-3, da OpenAI é, sem dúvida, o mais famoso modelo de Deep Learning criado nos últimos anos. E uma das coisas que mais impressiona nele é o seu tamanho: 175 bilhões de parâmetro. Pois o Google acaba de anunciar a criação de um novo modelo com 1,6 trilhão de parâmetros.
Os parâmetros são conhecidos como a chave para algoritmos de aprendizado de máquina. Quanto maior o número de parâmetros, mais sofisticado pode ser um modelo. Mas aumnetar a quantidade de parâmetros não é uma tarefa fácil. Além do custo excessivo, o treinamento dos parâmetros de modelos de linguagem também requer uma grande quantidade de recursos e extrema capacidade computacional.
Para resolver esse problema, os pesquisadores do Google desenvolveram uma técnica que usa apenas um subconjunto dos elementos de um modelo de linguagem. Eles o chamaram de Switch Transformer. E o construíram tendo em mente o princípio de maximizar a contagem de parâmetros de um modelo de uma forma simples e computacionalmente eficiente. A ideia é fazer mais com menos poder de processamento, mantendo os custos computacionais sob controle.
Este é um conteúdo exclusivo para assinantes.
Cadastre-se grátis para ler agora
e acesse 5 conteúdos por mês.
É assinante ou já tem senha? Faça login. Já recebe a newsletter? Ative seu acesso.
O modelo de processamento de linguagem da OpenAI foi eleito "Pessoa do Ano" pela Forbes
O processamento de linguagem natural GPT-3 é o modelo de deep learning associado à linguagem com maior potencial de aplicações disruptivas no mercado
Modelos de processamento da OpenAI são capazes de criar imagens a partir de textos e classificar imagens de um jeito que nunca se viu
Aproveite nossas promoções de renovação
Clique aquiPara continuar navegando como visitante, vá por aqui.
Cadastre-se grátis, leia até 5 conteúdos por mês,
e receba nossa newsletter diária.
Já recebe a newsletter? Ative seu acesso