INTELIGÊNCIA ARTIFICIAL

DeepSeek pode revolucionar as regras do jogo da IA

Entenda como a empresa chinesa "derrubou" o mercado financeiro com seu modelo mais econômico e como isso impactará a indústria

Por Cristina De Luca 29/01/2025

Na semana passada, dissemos que o R1 estava deixando a OpenAI um pouco nervosa. Antes, outro modelo da DeepSeek AI, o V3, já havia preocupado a Meta. A ansiedade das gigantes de IA se espalhou muito mais rápido do que o esperado. A DeepSeek derrubou o mercado de ações na segunda-feira e tomou conta das manchetes de todas as publicações ao redor do mundo, muito além da comunidade de tecnologia e IA. Simplesmente por promover uma revolução econômica e um alerta geopolítico em relação ao domínio da tecnologia. A China entrou na corrida da IA, com menos custo.

Os mercados começaram a precificar um futuro de IA que pode ser mais barato e acessível do que imaginavam anteriormente. A ideia é de que quanto menos dinheiro as empresas precisarem gastar com infraestrutura (processadores e energia), mais lucrativas elas serão. O oposto da regra vigente até então. O sucesso da DeepSeek acendeu o alerta de que o apetite da IA por computação e energia pode não ser tão insaciável quanto se pensava anteriormente.

Resultado: as perdas no mercado financeiro foram relevantes. As ações da Nvidia, por exemplo, chegaram a cair 17%. As da Oracle, uma das principais investidoras no recém-anunciado Projeto Stargate de US$ 500 bilhões, despencaram cerca de 15%. As da Broadcom caíram mais de 19%. Mas cá para nós, todas haviam subido demais nos últimos meses, embaladas pela tese da imensa necessidade de poder computacional da IA. Somadas, as empresas de tech e energia perderam mais de US$ 1,2 trilhão em valor de mercado. Mas já começam a se recuperar.

CADASTRE-SE GRÁTIS PARA ACESSAR 5 CONTEÚDOS MENSAIS

Já recebe a newsletter? Ative seu acesso

Satya Nadella, que viu as ações da Microsoft caírem 2%, fez a melhor leitura. “O paradoxo de Jevons ataca novamente!”, publicou no X. “À medida que a IA se tornar mais eficiente e acessível, veremos seu uso disparar, transformando-a em uma commodity da qual não nos cansaremos”, completou. Em economia, o paradoxo de Jevons ocorre quando os avanços tecnológicos tornam o uso de um recurso mais eficiente, fazendo com que, à medida que o seu custo diminui, sua demanda aumente.

Como o CEO da Microsoft, muitos VCs estão abordando a atual reviravolta com um olhar analítico, procurando por conclusões específicas em vez de alimentar o pânico ou a desgraça total. O impacto da DeepSeek pode, contra intuitivamente, aumentar a demanda por chips avançados de IA – tanto da Nvidia quanto de seus concorrentes. O provável, portanto, é que empresas de infraestrutura apenas retornem a patamares de avaliação mais justos.

Até ontem, os mercados estavam precificando custos massivos de computação para os maiores consumidores de IA. Esperava-se que Google, Meta, Amazon e Microsoft gastassem mais de US$ 300 bilhões em despesas de capital este ano. Todas as quatro empresas, a essa altura, estão debruçadas sobre o V3 e R1 e revisando suas suposições, perguntando se o resultado chinês é real e se podem obter o mesmo por muito menos dinheiro.

Ao dissecar o DeepSeek R1, elas podem descobrir algumas lições sobre como fazer os modelos usarem os recursos existentes de forma mais eficaz, derrubando a ideia de que a construção de mais e mais data centers é a única fórmula vencedora para uma IA melhor. E que parte dos US$ 500 bilhões destinados ao Stargate, por exemplo, podem ser redirecionados para outros propósitos, financiando oportunidades mais lucrativas.

Pesquisadores das principais empresas norte-americanas dizem reservadamente que estão impressionados com os resultados do DeepSeek, mesmo que a companhia chinesa possa ter tomado alguns atalhos comuns para imitar modelos já lançados, incluindo treinar seus próprios modelos em respostas que outros modelos como o1 ou Llama produzem – um processo conhecido como destilação. Não por acaso, Marc Andreessen acredita estarmos diante do “momento Sputnik da IA”, e o presidente Trump chamou o DeepSeek de “um chamado para despertar”.

Quem realmente precisa abrir os olhos? As concorrentes diretas. O sucesso do DeepSeek pode minar significativamente as premissas da avaliação atual da OpenAI, Anthropic, Cohere, Mistral, etc. Principalmente porque o aumento da concorrência e as guerras de preços entre as desenvolvedoras de modelos fundamentais também minarão suas esperanças de lucro. E também porque, além de usarem muito menos dinheiro, chips e energia, os modelos da DeepSeekAI são open source, democratizando o acesso a uma tecnologia complexa, abrindo caminho para novos desafiantes das atuais soluções proprietárias. Não são apenas mais baratos de construir – também são mais baratos de executar.

Vale lembrar que defensores da IA de código aberto há muito previram a comoditização dos modelos de IA. “Se esses modelos se mostrarem bastante capazes, o que realmente parecem ser, e forem muito baratos (até gratuitos), então haverá um mundo em que as empresas pararão de usar o OpenAI em escala”, disse William Falcon, CEO da Lightning AI.

Sam Altman, cofundador e CEO da OpenAI, acusou o golpe: “O R1 da Deepseek é um modelo impressionante, particularmente em torno do que eles podem entregar pelo preço”, escreveu no X ontem à noite. “Obviamente, entregaremos modelos muito melhores e também é legitimamente revigorante ter um novo concorrente!”. Ato contínuo, confirmou que usuários gratuitos do ChatGPT terão acesso também gratuito ao modelo avançado o3-mini da OpenAI, em breve. O quanto isso impactará o caixa da OpenAI? Difícil dizer, nesse momento.

Em resumo, a virada no jogo da IA apenas começou. E já há um ponto, em particular, animando alguns VCs. A hipercompetitividade na camada de foundation models é ótima para startups que criam aplicativos, segundo Andrew Ng, sócio do AI Fund, e Michael Mignano, da Lightspeed. “Se o custo da IA for reduzido, isso significará que muito mais startups poderão entrar no jogo”, disse Mignano. Com o barateamento do desenvolvimento de modelos de IA surgirão incontáveis modelos de IA especializados, agentes de IA, aplicativos inteligentes e de produtividade, além de novas aplicações.

Outros pontos relevantes?

O DeepSeek combinou métodos conhecidos — aprendizado por reforço, mistura de especialistas e raciocínio multitoken — em uma receita finamente ajustada. Essas são as melhores práticas, não mágica. O R1 representa uma integração quase perfeita das melhores práticas padrão: mistura de especialistas para reduzir os requisitos de computação, predição de vários tokens para acelerar as respostas e uma fase RL em larga escala que verifica automaticamente o código ou soluções matemáticas para refinar o raciocínio. Tudo isso já foi usado antes em outros modelos.

O R1 melhorou um monte de código aberto por meio de destilação, mas realmente se desenvolveu por meio de treinamento da API da OpenAI e respostas do GPT4 e o1? A OpenAI afirma ter evidências disso. Esse suposto uso de saídas o1 pelo DeepSeek destaca a próxima grande fronteira legal? O treinamento na saída do modelo proprietário de um concorrente é um derivado válido de “uso justo” ou uma violação de propriedade intelectual? Quão defensável é a posição da OpenAI se alguém pode simplesmente replicar as saídas do seu modelo a um preço menor? E a OpenAI o direito de proteger suas saídas, dado que é igualmente acusada de usar dados de outras empresas (principalmente empresas de mídia) e de muitos usuários, sem consentimento?

Não sabemos como o Deepseek V3 (e por extensão o R1) foi treinado — e que tipo de ajuste fino ele passou. Até que ponto as considerações políticas do PCCh (Partido Comunista da China) colocaram restrições e barreiras em torno de seu comportamento? Na semana passada, o CEO da DeepSeek, Liang Wenfeng, foi convidado para falar em um simpósio organizado pelo premiê chinês Li Qiang.

Embora a economia de escala seja desafiada pelo código aberto, ainda há ganhos a serem obtidos na escala da computação em tempo de inferência. A maior parte dos ciclos de computação de IA estará na inferência. Isso pode pressionar a Nvidia, se empresas como AMD e Groq escolherem focar em hardware que realmente suporte inferência otimizada.O DeepSeek pode ter treinado o R1 em chips da Nvidia, mas as versões destiladas podem rodar em processadores caseiros da Huawei — apoiando a aposta da Huawei de que a inferência, não o treinamento, impulsionará os gastos com hardware de IA.

Na prática, o sucesso da DeepSeek começou a encorajar outras startups chinesas, como a Moonshot e a Zhipu. “É um lembrete poderoso de que o talento em engenharia está em toda parte, e nenhuma nação tem o monopólio sobre ele”, disse Peter Barrett, sócio geral da Playground Global.

A ByteDance, dona do TikTok, anunciou seu próprio agente de raciocínio, o UI-TARS, que, segundo ela, supera o GPT-4o da OpenAI, o Claude da Anthropic e o Gemini do Google em certos benchmarks. O agente da ByteDance pode ler interfaces gráficas, raciocinar e tomar ações autônomas, passo a passo.

A Meta está claramente preocupada. Ela deixou de ser uma provedora líder de modelos de código aberto para ficar atrás da DeepSeek. Alguns desenvolvedores disseram que, embora os modelos da Meta sejam gratuitos, eles costumam ser mais caros de executar do que os da OpenAI, em parte porque a OpenAI pode reduzir seus preços agrupando milhões de consultas de clientes de seus modelos. Desenvolvedores menores não têm consultas suficientes para reduzir custos dessa forma.

A popularidade do modelo R1 o tornou um alvo de ataque cibernético. O que levou a DeepSeek AI a limitar o registro de novos usuários.

A DeepSeek acaba de lançar OUTRO modelo de IA de código aberto, o Janus-Pro-7B, multimodal, superior ao DALL-E 3 e ao Stable Diffusion nos benchmarks GenEval e DPG-Bench, em tarefas visuais como geração de imagens e raciocínio.

O DeepSeek R1 já está disponível no Perplexity para suporte à busca na deep web. Com um detalhe: está hospedado em data centers nos EUA/UE. A Perplexity garante que os dados nunca sairão dos servidores ocidentais. Ah, o Perplexity Enterprise Pro também já oferece o DeepSeek R1 em combinação com o FactSet e o Crunchbase.

O R1 não resolve imprecisões e problemas de privacidade e confiabilidade.

Já começaram a surgir alegações de que os modelos da DeepSeek não são “verdadeiramente” de código aberto.

Os modelos do DeepSeek foram treinados usando chips Nvidia. Definitivamente, o sucesso desses modelos não é uma má notícia para a fabricante de semicondutores.

A tendência para modelos cada vez maiores parece ter perdido força em 2024. Em vez disso, a indústria se voltou para um novo regime pós-treinamento. Dario Amodei, da Anthropic, explicou isso em sua entrevista em Davos.

A DeepSeek AI vem chamando atenção dos observadores de IA há mais de um ano.

Interessados em testar o R1 podem acessar o modelo por meio dos aplicativos para smartphones da startup chinesa disponíveis nas lojas norte-americanas (Android, Apple), bem como no site para desktop da empresa.

DeepSeek pode revolucionar as regras do jogo da IA

Entenda como a empresa chinesa "derrubou" o mercado financeiro com seu modelo mais econômico e como isso impactará a indústria

Outros pontos relevantes?

Matérias relacionadas

The Shift 360°

China desafia gigantes da IA com modelos da DeepSeek

Inteligência Artificial

Corrida por AI Reasoning esquenta de vez

Inteligência Artificial

A ascensão da DeepSeek: É inovação que chama?

Inteligência Artificial

Operator: OpenAI lança IA autônoma para navegação e tarefas online

THE SHIFT

DeepSeek pode revolucionar as regras do jogo da IA

Entenda como a empresa chinesa "derrubou" o mercado financeiro com seu modelo mais econômico e como isso impactará a indústria

Outros pontos relevantes?

Matérias relacionadas

The Shift 360°

China desafia gigantes da IA com modelos da DeepSeek

Inteligência Artificial

Corrida por AI Reasoning esquenta de vez

Inteligência Artificial

A ascensão da DeepSeek: É inovação que chama?

Inteligência Artificial

Operator: OpenAI lança IA autônoma para navegação e tarefas online

THE SHIFT

Renove sua assinatura no plano anual e ganhe uma camiseta exclusiva da The Shift!

Sua assinatura está expirada

Renove sua assinatura no plano anual e
ganhe uma camiseta exclusiva da The Shift!