INTELIGÊNCIA ARTIFICIAL

Corrida por AI Reasoning esquenta de vez

Com o lançamento do modelo R1, da DeepSeek, e a OpenAI correndo atrás, a disputa para construir uma IA que imita os pensamentos de um ser humano se intensifica

Por Cristina De Luca 22/01/2025

Há quatro meses, o mundo da IA começou a debater o lançamento do o1, Large Reasoning Model (LRM) da OpenAI que popularizou a ideia dos modelos treinados por aprendizado por reforço para executar raciocínios complexos. Antes do Natal, a mesma OpenAI se apressou a anunciar o desenvolvimento do o3, ainda mais poderoso que o antecessor. O anúncio chegou a soar como vaporware, até que, neste início de 2025, o lançamento do R1, da DeepSeek, construído a partir do V3, acabou por justificar toda a pressa de Sam Altman e sua equipe. Como o QwQ, do Alibaba, o R1 aposta no código aberto e apresenta capacidades de raciocínio para lá de surpreendentes.

Os lançamentos do R1, da DeepSeek, e do QwQ, do Alibaba, provam que a competição para desenvolver uma IA que “consegue pensar” está cada vez mais acirrada, com a OpenAI também participando da disputa.o código aberto e apresenta capacidades de raciocínio para lá de surpreendentes.

O surgimento de LRMs como QwQ, R1, GPT o1 e o3 coincide com uma percepção crescente de que simplesmente dimensionar o tamanho do modelo pode não ser o caminho mais eficaz para atingir a Inteligência Artificial Geral (AGI). A busca por modelos cada vez maiores enfrenta desafios, incluindo retornos decrescentes sobre o investimento e dificuldade crescente na aquisição de dados de treinamento de alta qualidade. O dimensionamento de tempo de inferência, técnica utilizada pelo QwQ e GPT-o1, apresenta uma alternativa promissora. Ao focar em aprimorar o raciocínio por meio de tempo de processamento estendido, eles oferecem um potencial avanço no desenvolvimento de IA, potencialmente desbloqueando novos níveis de capacidade cognitiva.

CADASTRE-SE GRÁTIS PARA ACESSAR 5 CONTEÚDOS MENSAIS

Já recebe a newsletter? Ative seu acesso

O QwQ, atualmente disponível em uma versão de 32 bilhões de parâmetros com um contexto de 32.000 tokens, já demonstrou capacidades impressionantes em testes de benchmark. Nos AIME e MATH, que avaliam habilidades de resolução de problemas matemáticos, o QwQ supera o GPT-o1-preview. Também supera o GPT-01-mini no GPQA, um benchmark focado em raciocínio científico. E embora fique atrás do GPT-o1 no benchmark de codificação LiveCodeBench, ele ainda supera outros modelos como o GPT-4o e o Claude 3.5 Sonnet, consolidando sua posição como um forte concorrente no cenário de LRM.

A filosofia do Alibaba por trás do QwQ enfatiza a importância da “investigação paciente” e da “análise ponderada”, abordagens que incorpora ao se envolver em um processo de raciocínio passo a passo, semelhante a um aluno revisando meticulosamente seu trabalho para identificar e aprender com os erros. Exemplos exibidos no site do Qwen demonstram a capacidade da QwQ de “pensar em voz alta”, avaliando meticulosamente diferentes possibilidades e refinando sua abordagem ao procurar resolver problemas complexos. Essa transparência oferece percepções valiosas sobre os mecanismos de raciocínio do modelo e ressalta o comprometimento do Alibaba em promover um entendimento mais profundo de como funciona.

A DeepSeek AI, por sua vez, descobriu que o aprendizado por reforço permite que um modelo de linguagem aprenda automaticamente a pensar e refletir. O que isso significa? Que a DeepSeek apenas deixou seu modelo aprender por tentativa e erro. A parte mais louca? Funcionou — indo de 15,6% para 86,7% dos problemas de matemática, apenas praticando. Assim como a AlphaGo dominou o Go jogando contra si, em vez de estudar jogos humanos, a DeepSeek provou que você pode fazer o mesmo para o “raciocínio”. Além disso, o R1 é significativamente mais econômico, com despesas operacionais 90-95% menores que o o1, além de alcançar resultados comparáveis em vários benchmarks e testes.

Inovações do DeepSeek-R1

Aumento do tempo de pensamento: o treinamento estende a duração do raciocínio, melhorando a profundidade.
Autorreflexão e exploração: o modelo avalia e refina suas estratégias.
Extensa Janela de Contexto: o modelo suporta um comprimento de contexto de 128K tokens, permitindo processar e entender pedaços muito longos de texto. Ao empregar a abordagem de Cadeia de Pensamento (CoT), gerando etapas detalhadas de raciocínio antes de fornecer respostas finais, produz até 32.000 tokens. Isso aumenta a precisão da resposta e oferece visibilidade sem precedentes no processo de tomada de decisão do modelo.
Treinamento por aprendizado por reforço: atinge o raciocínio sem ajuste fino supervisionado.

O R1 combina o melhor dos Tranformers e abordagens neurais-simbólicas. Enquanto os Transformers se destacam no reconhecimento de padrões, os sistemas neurais-simbólicos trazem o raciocínio lógico para a mesa. Não bastasse isso, está disponível sob uma licença do MIT para uso comercial e custa bem menos que o o1 (US$ 0,14 contra US$ 7,5 por milhão de tokens de entrada, em contraste com os custos de API do o1 de, respectivamente, US$ 7,5, US$ 15 e US$ 60).

Não por acaso, o lançamento do R1 tem sido apontado pelos analistas como um momento crucial para os LRMs, remodelando potencialmente a maneira como a IA é desenvolvida, acessada e usada. Mas a DeepSeek AI observou que, apesar de todo o progresso, o modelo tem suas limitações e desafios, incluindo baixa legibilidade e mistura de idiomas, áreas que planeja explorar mais. Os engenheiros chineses também estão trabalhando para aprimorar as habilidades de codificação do modelo.

Por que tanto barulho sobre o R1? Com a OpenAI e outros gigantes dominando o ciclo de hype, a DeepSeek AI parece reivindicar a próxima grande novidade em raciocínio. E não por conta dos benchmarks, mas por conta do que essa abordagem RL-first pode significar para o aprendizado dos futuros modelos de IA.

Ah, as respostas mais recentes da OpenAI? Bom, Sam Altman tratou de anunciar que a empresa finalizou seu esperado modelo de raciocínio “o3-mini” para lançamento nas próximas semanas, com planos de acesso à API e integração ao ChatGPT, simultaneamente. O CEO também disse que a OpenAI agora está se concentrando nos modelos o3 e o3-pro, e deu a entender que eles estarão disponíveis para usuários no nível Pro de US$ 200/mês. Além disso, comentou que o o3-mini é “pior que o o1 pro na maioria das coisas, mas mais RÁPIDO”. Pouco, né?

O DeepSeek R1 é uma das inovações mais incríveis e impressionantes dos últimos tempos — e, como é de código aberto, um presente profundo para o mundo.

A DeepSeek AI começou como uma atividade paralela para a High-Flyer, do mesmo fundador, Liang Wenfeng, explorando a capacidade restante da GPU. Seu modelo V3 anterior foi construído em apenas dois meses com um orçamento de US$ 5.576.000. A Meta não está mais ocupando o primeiro lugar em código aberto e entrou em pânico. A OpenAI, como vimos, também está desconfortável… Atualmente, há pouco incentivo para continuar com o o1.

Enquanto Sebastien Bubeck, da OpenAI, aponta que esses modelos de raciocínio são “extremamente escaláveis” — o que significa mais computação, mais vantagem — os esforços de código aberto têm um poder único na proliferação da inovação. Quando o mundo inteiro puder acessar e mexer com modelos como o R1 e o QwQ, avanços surpreendentes provavelmente surgirão na velocidade da luz.

Há muito o que analisar aqui. A abordagem da DeepSeek (destilação de modelos, esparsidade e outras técnicas) pode ser copiada por outras empresas. E provavelmente é justo dizer que a DeepSeek é uma seguidora rápida, em vez de uma líder, nata. Mas uma seguidora que assumiu a dianteira, inovando!

Os chineses aprenderam a construir modelos de IA poderosos que têm desempenho um pouco abaixo dos concorrentes mais avançados dos EUA, usando muito menos dinheiro, chips e energia. Pesquisadores da OpenAI, Meta e outros grandes desenvolvedores têm analisado os modelos da DeepSeek AI para ver o que podem aprender com eles, incluindo como conseguem ser executados de forma mais barata e eficiente do que alguns modelos fabricados nos Estados Unidos.

Em tempo:

o Kimi-1.5 é outro modelo de raciocínio chinês que desafia o o1, principalmente em recursos multimodais.

A ByteDance, dona do TikTok, lançou o Doubao-1.5-pro, um modelo que iguala o desempenho do GPT-4o e é oito vezes mais barato.

A DeepSeek AI também lançou 6 pequenos modelos derivados do R1, comparáveis ao o1 mini.

Em uma entrevista no ano passado, o CEO da DeepSeek disse: “Dinheiro nunca foi um problema para nós; as proibições de remessas de chips avançados são o problema”. O modelo V3 foi treinado em chips Nvidia H800, uma versão menos potente de um chip cuja exportação para a China foi proibida pelos EUA em 2022.

Autoridades americanas têm defendido a restrição ainda maior do acesso da China a chips avançados de IA na esperança de desacelerar o desenvolvimento da tecnologia no país.

É claro que é notável que uma empresa chinesa tenha lançado algo tão próximo da fronteira (embora os números de benchmark possam exagerar seu desempenho real). Se o DeepSeek pode fazer isso com um cluster minúsculo, o que os chineses fariam com um cluster enorme?

Os modelos ultra eficientes da DeepSeek mostram ser possível cortar custos e aumentar o desempenho.

Corrida por AI Reasoning esquenta de vez

Com o lançamento do modelo R1, da DeepSeek, e a OpenAI correndo atrás, a disputa para construir uma IA que imita os pensamentos de um ser humano se intensifica

Matérias relacionadas

The Shift 360°

China desafia gigantes da IA com modelos da DeepSeek

Inteligência Artificial

LLMs autoevolutivos avançam

Inteligência Artificial

Nem toda Inteligência Artificial requer milhões de dados

THE SHIFT

Corrida por AI Reasoning esquenta de vez

Com o lançamento do modelo R1, da DeepSeek, e a OpenAI correndo atrás, a disputa para construir uma IA que imita os pensamentos de um ser humano se intensifica

Matérias relacionadas

The Shift 360°

China desafia gigantes da IA com modelos da DeepSeek

Inteligência Artificial

LLMs autoevolutivos avançam

Inteligência Artificial

Nem toda Inteligência Artificial requer milhões de dados

THE SHIFT

Renove sua assinatura no plano anual e ganhe uma camiseta exclusiva da The Shift!

Sua assinatura está expirada

Renove sua assinatura no plano anual e
ganhe uma camiseta exclusiva da The Shift!