Há quatro meses, o mundo da IA começou a debater o lançamento do o1, Large Reasoning Model (LRM) da OpenAI que popularizou a ideia dos modelos treinados por aprendizado por reforço para executar raciocínios complexos. Antes do Natal, a mesma OpenAI se apressou a anunciar o desenvolvimento do o3, ainda mais poderoso que o antecessor. O anúncio chegou a soar como vaporware, até que, neste início de 2025, o lançamento do R1, da DeepSeek, construído a partir do V3, acabou por justificar toda a pressa de Sam Altman e sua equipe. Como o QwQ, do Alibaba, o R1 aposta no código aberto e apresenta capacidades de raciocínio para lá de surpreendentes.
Os lançamentos do R1, da DeepSeek, e do QwQ, do Alibaba, provam que a competição para desenvolver uma IA que “consegue pensar” está cada vez mais acirrada, com a OpenAI também participando da disputa.o código aberto e apresenta capacidades de raciocínio para lá de surpreendentes.
O surgimento de LRMs como QwQ, R1, GPT o1 e o3 coincide com uma percepção crescente de que simplesmente dimensionar o tamanho do modelo pode não ser o caminho mais eficaz para atingir a Inteligência Artificial Geral (AGI). A busca por modelos cada vez maiores enfrenta desafios, incluindo retornos decrescentes sobre o investimento e dificuldade crescente na aquisição de dados de treinamento de alta qualidade. O dimensionamento de tempo de inferência, técnica utilizada pelo QwQ e GPT-o1, apresenta uma alternativa promissora. Ao focar em aprimorar o raciocínio por meio de tempo de processamento estendido, eles oferecem um potencial avanço no desenvolvimento de IA, potencialmente desbloqueando novos níveis de capacidade cognitiva.
O QwQ, atualmente disponível em uma versão de 32 bilhões de parâmetros com um contexto de 32.000 tokens, já demonstrou capacidades impressionantes em testes de benchmark. Nos AIME e MATH, que avaliam habilidades de resolução de problemas matemáticos, o QwQ supera o GPT-o1-preview. Também supera o GPT-01-mini no GPQA, um benchmark focado em raciocínio científico. E embora fique atrás do GPT-o1 no benchmark de codificação LiveCodeBench, ele ainda supera outros modelos como o GPT-4o e o Claude 3.5 Sonnet, consolidando sua posição como um forte concorrente no cenário de LRM.
A filosofia do Alibaba por trás do QwQ enfatiza a importância da “investigação paciente” e da “análise ponderada”, abordagens que incorpora ao se envolver em um processo de raciocínio passo a passo, semelhante a um aluno revisando meticulosamente seu trabalho para identificar e aprender com os erros. Exemplos exibidos no site do Qwen demonstram a capacidade da QwQ de “pensar em voz alta”, avaliando meticulosamente diferentes possibilidades e refinando sua abordagem ao procurar resolver problemas complexos. Essa transparência oferece percepções valiosas sobre os mecanismos de raciocínio do modelo e ressalta o comprometimento do Alibaba em promover um entendimento mais profundo de como funciona.
A DeepSeek AI, por sua vez, descobriu que o aprendizado por reforço permite que um modelo de linguagem aprenda automaticamente a pensar e refletir. O que isso significa? Que a DeepSeek apenas deixou seu modelo aprender por tentativa e erro. A parte mais louca? Funcionou — indo de 15,6% para 86,7% dos problemas de matemática, apenas praticando. Assim como a AlphaGo dominou o Go jogando contra si, em vez de estudar jogos humanos, a DeepSeek provou que você pode fazer o mesmo para o “raciocínio”. Além disso, o R1 é significativamente mais econômico, com despesas operacionais 90-95% menores que o o1, além de alcançar resultados comparáveis em vários benchmarks e testes.
Inovações do DeepSeek-R1
- Aumento do tempo de pensamento: o treinamento estende a duração do raciocínio, melhorando a profundidade.
- Autorreflexão e exploração: o modelo avalia e refina suas estratégias.
- Extensa Janela de Contexto: o modelo suporta um comprimento de contexto de 128K tokens, permitindo processar e entender pedaços muito longos de texto. Ao empregar a abordagem de Cadeia de Pensamento (CoT), gerando etapas detalhadas de raciocínio antes de fornecer respostas finais, produz até 32.000 tokens. Isso aumenta a precisão da resposta e oferece visibilidade sem precedentes no processo de tomada de decisão do modelo.
- Treinamento por aprendizado por reforço: atinge o raciocínio sem ajuste fino supervisionado.
O R1 combina o melhor dos Tranformers e abordagens neurais-simbólicas. Enquanto os Transformers se destacam no reconhecimento de padrões, os sistemas neurais-simbólicos trazem o raciocínio lógico para a mesa. Não bastasse isso, está disponível sob uma licença do MIT para uso comercial e custa bem menos que o o1 (US$ 0,14 contra US$ 7,5 por milhão de tokens de entrada, em contraste com os custos de API do o1 de, respectivamente, US$ 7,5, US$ 15 e US$ 60).
Não por acaso, o lançamento do R1 tem sido apontado pelos analistas como um momento crucial para os LRMs, remodelando potencialmente a maneira como a IA é desenvolvida, acessada e usada. Mas a DeepSeek AI observou que, apesar de todo o progresso, o modelo tem suas limitações e desafios, incluindo baixa legibilidade e mistura de idiomas, áreas que planeja explorar mais. Os engenheiros chineses também estão trabalhando para aprimorar as habilidades de codificação do modelo.
Por que tanto barulho sobre o R1? Com a OpenAI e outros gigantes dominando o ciclo de hype, a DeepSeek AI parece reivindicar a próxima grande novidade em raciocínio. E não por conta dos benchmarks, mas por conta do que essa abordagem RL-first pode significar para o aprendizado dos futuros modelos de IA.
Ah, as respostas mais recentes da OpenAI? Bom, Sam Altman tratou de anunciar que a empresa finalizou seu esperado modelo de raciocínio “o3-mini” para lançamento nas próximas semanas, com planos de acesso à API e integração ao ChatGPT, simultaneamente. O CEO também disse que a OpenAI agora está se concentrando nos modelos o3 e o3-pro, e deu a entender que eles estarão disponíveis para usuários no nível Pro de US$ 200/mês. Além disso, comentou que o o3-mini é “pior que o o1 pro na maioria das coisas, mas mais RÁPIDO”. Pouco, né?
O DeepSeek R1 é uma das inovações mais incríveis e impressionantes dos últimos tempos — e, como é de código aberto, um presente profundo para o mundo.
A DeepSeek AI começou como uma atividade paralela para a High-Flyer, do mesmo fundador, Liang Wenfeng, explorando a capacidade restante da GPU. Seu modelo V3 anterior foi construído em apenas dois meses com um orçamento de US$ 5.576.000. A Meta não está mais ocupando o primeiro lugar em código aberto e entrou em pânico. A OpenAI, como vimos, também está desconfortável… Atualmente, há pouco incentivo para continuar com o o1.
Enquanto Sebastien Bubeck, da OpenAI, aponta que esses modelos de raciocínio são “extremamente escaláveis” — o que significa mais computação, mais vantagem — os esforços de código aberto têm um poder único na proliferação da inovação. Quando o mundo inteiro puder acessar e mexer com modelos como o R1 e o QwQ, avanços surpreendentes provavelmente surgirão na velocidade da luz.
Há muito o que analisar aqui. A abordagem da DeepSeek (destilação de modelos, esparsidade e outras técnicas) pode ser copiada por outras empresas. E provavelmente é justo dizer que a DeepSeek é uma seguidora rápida, em vez de uma líder, nata. Mas uma seguidora que assumiu a dianteira, inovando!
Os chineses aprenderam a construir modelos de IA poderosos que têm desempenho um pouco abaixo dos concorrentes mais avançados dos EUA, usando muito menos dinheiro, chips e energia. Pesquisadores da OpenAI, Meta e outros grandes desenvolvedores têm analisado os modelos da DeepSeek AI para ver o que podem aprender com eles, incluindo como conseguem ser executados de forma mais barata e eficiente do que alguns modelos fabricados nos Estados Unidos.
Em tempo:
- o Kimi-1.5 é outro modelo de raciocínio chinês que desafia o o1, principalmente em recursos multimodais.
- A ByteDance, dona do TikTok, lançou o Doubao-1.5-pro, um modelo que iguala o desempenho do GPT-4o e é oito vezes mais barato.
- A DeepSeek AI também lançou 6 pequenos modelos derivados do R1, comparáveis ao o1 mini.
- Em uma entrevista no ano passado, o CEO da DeepSeek disse: “Dinheiro nunca foi um problema para nós; as proibições de remessas de chips avançados são o problema”. O modelo V3 foi treinado em chips Nvidia H800, uma versão menos potente de um chip cuja exportação para a China foi proibida pelos EUA em 2022.
- Autoridades americanas têm defendido a restrição ainda maior do acesso da China a chips avançados de IA na esperança de desacelerar o desenvolvimento da tecnologia no país.
- É claro que é notável que uma empresa chinesa tenha lançado algo tão próximo da fronteira (embora os números de benchmark possam exagerar seu desempenho real). Se o DeepSeek pode fazer isso com um cluster minúsculo, o que os chineses fariam com um cluster enorme?
- Os modelos ultra eficientes da DeepSeek mostram ser possível cortar custos e aumentar o desempenho.