China desafia gigantes da IA com modelos da DeepSeek

OUTROS ARTIGOS DESTA SÉRIE

Por Cristina De Luca 08/01/2025

Na última semana de 2024, a empresa chinesa DeepSeek lançou um modelo de IA Generativa que surpreendeu pesquisadores de todo o mundo por sua eficiência. Custa 1/10 do valor do Lhama para treinar e usou 1/10 dos recursos. Em outro presente de Natal de código aberto, o Alibaba já havia lançado o Qwen2-VL-72B, um modelo de raciocínio visual impressionante, com pontuação de 70,3 no MMMU. Comparando, a pontuação do o1 é 77,3.

O DeepSeek V3 é um modelo Mixture-of-Experts (MoE) de alto desempenho que pode desafiar a ideia de que apenas grandes empresas de tecnologia com orçamentos ilimitados para GPU podem treinar modelos de linguagem de alto nível. Tem 671 bilhões de parâmetros totais com 37 bilhões ativados por token para inferência (v2 tinha 236B de parâmetros totais, 21B ativos) e foi treinado em 14,8T tokens. Corresponde a modelos não racionais de última geração, como 4o e Sonnet 3.5 na maioria dos benchmarks a um preço muito menor (menos de dez vezes abaixo de 4o).

O poder das arquiteturas MoE e o enorme potencial de vitórias de inovações de engenharia, especialmente para aqueles que querem desempenho de modelo grande sem incorrer em uma conta monstruosa de GPU, são destaques deste lançamento. O desempenho e a eficiência impressionantes do DeepSeek V3 são sustentados por um conjunto de técnicas inovadoras.

CADASTRE-SE GRÁTIS PARA ACESSAR 5 CONTEÚDOS MENSAIS

Já recebe a newsletter? Ative seu acesso

Uma nova estratégia de balanceamento de carga auxiliar sem perdas garante a utilização ideal de especialistas em sua arquitetura MoE, minimizando a degradação do desempenho.

A Multi-Token Prediction (MTP) aprimorou ainda mais o treinamento do modelo e também permite decodificação especulativa para inferência mais rápida.

O uso bem-sucedido do treinamento de precisão mista FP8 também marca uma estreia para modelos dessa capacidade, melhorando significativamente a eficiência do treinamento.

Para inferência eficiente, a Multi-head Latent Attention (MLA) compacta o cache de valor-chave, e a arquitetura DeepSeekMoE contribui para o treinamento econômico e a inferência rápida.

Os resultados notáveis do DeepSeek sugerem que, mesmo com restrições de computação, abordagens algorítmicas inovadoras podem atingir desempenho de ponta por uma fração do custo.

Não bastasse tudo isso, o lançamento do DeepSeek-V3 diminui a lacuna entre IA de código aberto e fechado, democratizando potencialmente o acesso a modelos de linguagem avançados para empresas e desenvolvedores. Enquanto a OpenAI está construindo um jardim murado, as empresas chinesas estão, na verdade, ABERTAS.

Tem mais. A API do DeepSeek custa 12 vezes menos que a do Claude 3.5, da Anthropic. Desenvolvedores ao redor do mundo estão começando a se divertir com ela. Você também pode testar o modelo, em especial seu recurso “DeepThink”, que divide problemas complexos em etapas menores e mais fáceis de gerenciar.

Visite o site e clique em “Comece agora”.
Selecione o botão DeepThink na interface de bate-papo para o modo de raciocínio avançado.
Apresente um cenário complexo com múltiplas variáveis e pontos de decisão.
Use a análise passo a passo para entender e implementar soluções.

Ah! Tente comparar soluções entre cenários para entender os padrões de raciocínio. Isso ajuda a desenvolver melhores habilidades de resolução de problemas para desafios futuros.

Quem já testou garante:

Problemas de codificação: DeepSeek V3 > GPT-4o
Problemas de matemática e raciocínio: DeepSeek V3 > GPT-4o

Se você usou GPT-4o, pode mudar com segurança para DeepSeek V3.

Crescimento “aberto” da China

O DeepSeek não está sozinho. Muitos modelos de IA chineses estão abertos e arrasando:

Os modelos Qwen, do Alibaba, são os mais baixados no Hugging Face.
A maioria dos melhores modelos de vídeo são chineses, incluindo o Hunyuan (o segundo melhor modelo de vídeo atrás do Veo 2, do Google — que é extremamente bom).

The Shift 360°

De LLMs a Agentes de IA: Como 2025 redefinirá a Inteligência Artific...

Saiba por que este será o ano de maior avanço na integração de IA em negócios e na vida cotidiana

The Shift 360°

“Bolha de IA” não estourou, mas pode desinflar

Enquanto em 2024 os VCs investiram bilhões em modelos de fundação, a verdadeira oportunidade em 2025 está em resolver problemas de "última milha" que os modelos sozinhos não conseguem resolver.

The Shift 360°

Crypto AI: um mercado de bilhões

O futuro da IA pode ser construído na tecnologia blockchain, já que a criptografia pode ajudar a aumentar a acessibilidade, a transparência e os casos de uso.

The Shift 360°

Roadmap para 2025, e além

Para avançar, as empresas terão que fazer muito mais do que só adicionar recursos de IA a seus sistemas. Será preciso rever, reimaginar e recriar operações, com uma nova arquitetura de dados e infraestrutura.

OUTROS ARTIGOS DESTA SÉRIE

Crescimento “aberto” da China

Matérias relacionadas

The Shift 360°

De LLMs a Agentes de IA: Como 2025 redefinirá a Inteligência Artific...

The Shift 360°

“Bolha de IA” não estourou, mas pode desinflar

The Shift 360°

Crypto AI: um mercado de bilhões

The Shift 360°

Roadmap para 2025, e além

THE SHIFT