Há quatro meses, o mundo da IA começou a debater o lançamento do o1, Large Reasoning Model (LRM) da OpenAI que popularizou a ideia dos modelos treinados por aprendizado por reforço para executar raciocínios complexos. Antes do Natal, a mesma OpenAI se apressou a anunciar o desenvolvimento do o3, ainda mais poderoso que o antecessor. O anúncio chegou a soar como vaporware, até que, neste início de 2025, o lançamento do R1, da DeepSeek, construído a partir do V3, acabou por justificar toda a pressa de Sam Altman e sua equipe. Como o QwQ, do Alibaba, o R1 aposta no código aberto e apresenta capacidades de raciocínio para lá de surpreendentes.
Os lançamentos do R1, da DeepSeek, e do QwQ, do Alibaba, provam que a competição para desenvolver uma IA que “consegue pensar” está cada vez mais acirrada, com a OpenAI também participando da disputa.o código aberto e apresenta capacidades de raciocínio para lá de surpreendentes.
O surgimento de LRMs como QwQ, R1, GPT o1 e o3 coincide com uma percepção crescente de que simplesmente dimensionar o tamanho do modelo pode não ser o caminho mais eficaz para atingir a Inteligência Artificial Geral (AGI). A busca por modelos cada vez maiores enfrenta desafios, incluindo retornos decrescentes sobre o investimento e dificuldade crescente na aquisição de dados de treinamento de alta qualidade. O dimensionamento de tempo de inferência, técnica utilizada pelo QwQ e GPT-o1, apresenta uma alternativa promissora. Ao focar em aprimorar o raciocínio por meio de tempo de processamento estendido, eles oferecem um potencial avanço no desenvolvimento de IA, potencialmente desbloqueando novos níveis de capacidade cognitiva.
O QwQ, atualmente disponível em uma versão de 32 bilhões de parâmetros com um contexto de 32.000 tokens, já demonstrou capacidades impressionantes em testes de benchmark. Nos AIME e MATH, que avaliam habilidades de resolução de problemas matemáticos, o QwQ supera o GPT-o1-preview. Também supera o GPT-01-mini no GPQA, um benchmark focado em raciocínio científico. E embora fique atrás do GPT-o1 no benchmark de codificação LiveCodeBench, ele ainda supera outros modelos como o GPT-4o e o Claude 3.5 Sonnet, consolidando sua posição como um forte concorrente no cenário de LRM.
A filosofia do Alibaba por trás do QwQ enfatiza a importância da “investigação paciente” e da “análise ponderada”, abordagens que incorpora ao se envolver em um processo de raciocínio passo a passo, semelhante a um aluno revisando meticulosamente seu trabalho para identificar e aprender com os erros. Exemplos exibidos no site do Qwen demonstram a capacidade da QwQ de “pensar em voz alta”, avaliando meticulosamente diferentes possibilidades e refinando sua abordagem ao procurar resolver problemas complexos. Essa transparência oferece percepções valiosas sobre os mecanismos de raciocínio do modelo e ressalta o comprometimento do Alibaba em promover um entendimento mais profundo de como funciona.
A DeepSeek AI, por sua vez, descobriu que o aprendizado por reforço permite que um modelo de linguagem aprenda automaticamente a pensar e refletir. O que isso significa? Que a DeepSeek apenas deixou seu modelo aprender por tentativa e erro. A parte mais louca? Funcionou — indo de 15,6% para 86,7% dos problemas de matemática, apenas praticando. Assim como a AlphaGo dominou o Go jogando contra si, em vez de estudar jogos humanos, a DeepSeek provou que você pode fazer o mesmo para o “raciocínio”. Além disso, o R1 é significativamente mais econômico, com despesas operacionais 90-95% menores que o o1, além de alcançar resultados comparáveis em vários benchmarks e testes.
Inovações do DeepSeek-R1
O R1 combina o melhor dos Tranformers e abordagens neurais-simbólicas. Enquanto os Transformers se destacam no reconhecimento de padrões, os sistemas neurais-simbólicos trazem o raciocínio lógico para a mesa. Não bastasse isso, está disponível sob uma licença do MIT para uso comercial e custa bem menos que o o1 (US$ 0,14 contra US$ 7,5 por milhão de tokens de entrada, em contraste com os custos de API do o1 de, respectivamente, US$ 7,5, US$ 15 e US$ 60).
Não por acaso, o lançamento do R1 tem sido apontado pelos analistas como um momento crucial para os LRMs, remodelando potencialmente a maneira como a IA é desenvolvida, acessada e usada. Mas a DeepSeek AI observou que, apesar de todo o progresso, o modelo tem suas limitações e desafios, incluindo baixa legibilidade e mistura de idiomas, áreas que planeja explorar mais. Os engenheiros chineses também estão trabalhando para aprimorar as habilidades de codificação do modelo.
Por que tanto barulho sobre o R1? Com a OpenAI e outros gigantes dominando o ciclo de hype, a DeepSeek AI parece reivindicar a próxima grande novidade em raciocínio. E não por conta dos benchmarks, mas por conta do que essa abordagem RL-first pode significar para o aprendizado dos futuros modelos de IA.
Ah, as respostas mais recentes da OpenAI? Bom, Sam Altman tratou de anunciar que a empresa finalizou seu esperado modelo de raciocínio “o3-mini” para lançamento nas próximas semanas, com planos de acesso à API e integração ao ChatGPT, simultaneamente. O CEO também disse que a OpenAI agora está se concentrando nos modelos o3 e o3-pro, e deu a entender que eles estarão disponíveis para usuários no nível Pro de US$ 200/mês. Além disso, comentou que o o3-mini é “pior que o o1 pro na maioria das coisas, mas mais RÁPIDO”. Pouco, né?
O DeepSeek R1 é uma das inovações mais incríveis e impressionantes dos últimos tempos — e, como é de código aberto, um presente profundo para o mundo.
A DeepSeek AI começou como uma atividade paralela para a High-Flyer, do mesmo fundador, Liang Wenfeng, explorando a capacidade restante da GPU. Seu modelo V3 anterior foi construído em apenas dois meses com um orçamento de US$ 5.576.000. A Meta não está mais ocupando o primeiro lugar em código aberto e entrou em pânico. A OpenAI, como vimos, também está desconfortável… Atualmente, há pouco incentivo para continuar com o o1.
Enquanto Sebastien Bubeck, da OpenAI, aponta que esses modelos de raciocínio são “extremamente escaláveis” — o que significa mais computação, mais vantagem — os esforços de código aberto têm um poder único na proliferação da inovação. Quando o mundo inteiro puder acessar e mexer com modelos como o R1 e o QwQ, avanços surpreendentes provavelmente surgirão na velocidade da luz.
Há muito o que analisar aqui. A abordagem da DeepSeek (destilação de modelos, esparsidade e outras técnicas) pode ser copiada por outras empresas. E provavelmente é justo dizer que a DeepSeek é uma seguidora rápida, em vez de uma líder, nata. Mas uma seguidora que assumiu a dianteira, inovando!
Os chineses aprenderam a construir modelos de IA poderosos que têm desempenho um pouco abaixo dos concorrentes mais avançados dos EUA, usando muito menos dinheiro, chips e energia. Pesquisadores da OpenAI, Meta e outros grandes desenvolvedores têm analisado os modelos da DeepSeek AI para ver o que podem aprender com eles, incluindo como conseguem ser executados de forma mais barata e eficiente do que alguns modelos fabricados nos Estados Unidos.
Em tempo:
Ultraeficiente o DeepSeek V3 mostra laboratórios chineses competindo para cortar custos e aumentar o desempenho dos modelos de IA mais poderosos.
E se os grandes modelos de linguagem pudessem aprender com as próprias experiências, sem intervenção humana? Essa é uma área de pesquisa promissora, mas há obstáculos a superar.
Muitos pesquisadores sustentam que, na maioria das vezes, a IA se torna ainda mais inteligente e poderosa se tiver a capacidade de ser treinada com Small Data
Aproveite nossas promoções de renovação
Clique aquiPara continuar navegando como visitante, vá por aqui.
Cadastre-se grátis, leia até 5 conteúdos por mês,
e receba nossa newsletter diária.
Já recebe a newsletter? Ative seu acesso