s
360°

Na última semana de 2024, a empresa chinesa DeepSeek lançou um modelo de IA Generativa que surpreendeu pesquisadores de todo o mundo por sua eficiência. Custa 1/10 do valor do Lhama para treinar e usou 1/10 dos recursos. Em outro presente de Natal de código aberto, o Alibaba já havia lançado o Qwen2-VL-72B, um modelo de raciocínio visual impressionante, com pontuação de 70,3 no MMMU. Comparando, a pontuação do o1 é 77,3.

DeepSeek V3 é um modelo Mixture-of-Experts (MoE) de alto desempenho que pode desafiar a ideia de que apenas grandes empresas de tecnologia com orçamentos ilimitados para GPU podem treinar modelos de linguagem de alto nível. Tem 671 bilhões de parâmetros totais com 37 bilhões ativados por token para inferência (v2 tinha 236B de parâmetros totais, 21B ativos) e foi treinado em 14,8T tokens. Corresponde a modelos não racionais de última geração, como 4o e Sonnet 3.5 na maioria dos benchmarks a um preço muito menor (menos de dez vezes abaixo de 4o).

O poder das arquiteturas MoE e o enorme potencial de vitórias de inovações de engenharia, especialmente para aqueles que querem desempenho de modelo grande sem incorrer em uma conta monstruosa de GPU, são destaques deste lançamento. O desempenho e a eficiência impressionantes do DeepSeek V3 são sustentados por um conjunto de técnicas inovadoras.

CADASTRE-SE GRÁTIS PARA ACESSAR 5 CONTEÚDOS MENSAIS

Já recebe a newsletter? Ative seu acesso

Ao cadastrar-se você declara que está de acordo
com nossos Termos de Uso e Privacidade.

Cadastrar
  • Uma nova estratégia de balanceamento de carga auxiliar sem perdas garante a utilização ideal de especialistas em sua arquitetura MoE, minimizando a degradação do desempenho.
  • A Multi-Token Prediction (MTP) aprimorou ainda mais o treinamento do modelo e também permite decodificação especulativa para inferência mais rápida.
  • O uso bem-sucedido do treinamento de precisão mista FP8 também marca uma estreia para modelos dessa capacidade, melhorando significativamente a eficiência do treinamento.
  • Para inferência eficiente, a Multi-head Latent Attention (MLA) compacta o cache de valor-chave, e a arquitetura DeepSeekMoE contribui para o treinamento econômico e a inferência rápida.

Os resultados notáveis ​​do DeepSeek sugerem que, mesmo com restrições de computação, abordagens algorítmicas inovadoras podem atingir desempenho de ponta por uma fração do custo.

Não bastasse tudo isso, o lançamento do DeepSeek-V3 diminui a lacuna entre IA de código aberto e fechado, democratizando potencialmente o acesso a modelos de linguagem avançados para empresas e desenvolvedores. Enquanto a OpenAI está construindo um jardim murado, as empresas chinesas estão, na verdade, ABERTAS.

Tem mais. A API do DeepSeek custa 12 vezes menos que a do Claude 3.5, da Anthropic. Desenvolvedores ao redor do mundo estão começando a se divertir com ela. Você também pode testar o modelo, em especial seu recurso “DeepThink”, que divide problemas complexos em etapas menores e mais fáceis de gerenciar.

  • Visite o site e clique em “Comece agora”.
  • Selecione o botão DeepThink na interface de bate-papo para o modo de raciocínio avançado.
  • Apresente um cenário complexo com múltiplas variáveis e pontos de decisão.
  • Use a análise passo a passo para entender e implementar soluções.

Ah! Tente comparar soluções entre cenários para entender os padrões de raciocínio. Isso ajuda a desenvolver melhores habilidades de resolução de problemas para desafios futuros.

Quem já testou garante:

  • Problemas de codificação: DeepSeek V3 > GPT-4o
  • Problemas de matemática e raciocínio: DeepSeek V3 > GPT-4o

Se você usou GPT-4o, pode mudar com segurança para DeepSeek V3.

Crescimento “aberto” da China

O DeepSeek não está sozinho. Muitos modelos de IA chineses estão abertos e arrasando: