s
INTELIGÊNCIA ARTIFICIAL

A corrida da IA no text-to-video

Nas últimas semanas, OpenAI e o Google revelaram novos modelos e recursos impressionantes, a um ritmo alucinante, cada um deles ampliando os limites do que a IA pode fazer.

Primeiro, a OpenAI deu ao ChatGPT a capacidade de lembrar conversas anteriores com os usuários, bem como seus detalhes e preferências pessoais. Em seguida, o Google lançou seu modelo mais potente, o Gemini 1.0 Ultra, em uma versão ampla. Em seguida, lançou de forma limitada um novo modelo Gemini 1.5 Pro com a mesma capacidade do Ultra, mas em um pacote menor e mais barato. O que torna o 1.5 Pro especial é sua "janela de contexto" notavelmente grande. Pode analisar uma hora de vídeo, 11 horas de áudio ou cerca de sete livros de texto. E, entre seus poderes, criar vídeos a partir de descrições. Na sequência, a OpenAI apresentou o Sora, um novo modelo de geração de texto para vídeo que pode produzir vídeos de um minuto com qualidade impressionante (e algumas alucinações).

O que poucos se deram conta foi que o movimento todo começou quando a Meta (outra concorrente de peso) publicou um artigo sobre a iniciativa V-JEPA (Video Joint Embedding Predictive Architecture). Pesquisadores da empresa encontraram uma forma de exigir menos dos algoritmos. Em vez de pedir aos algoritmos que encontrem padrões em cada píxel em movimento de um vídeo, eles selecionam um trecho importante da cena e pedem ao software para adivinhar, em termos gerais, o que está faltando.

A OpenAI e o Google fizeram seus anúncios focados no tripé:

  • Texto para vídeo: geração de vídeos sem esforço de até 60 segundos a partir de simples solicitações de texto. Há vários exemplos do Sora aqui.
  • Imagem em vídeo: transformação de imagens estáticas em cenas dinâmicas com movimento contínuo.
  • Aprimoramento de vídeo: adição de novas sequências a vídeos pré-existentes.

Este é um conteúdo exclusivo para assinantes.

Cadastre-se grátis para ler agora
e acesse 5 conteúdos por mês.

É assinante ou já tem senha? Faça login. Já recebe a newsletter? Ative seu acesso.

Confiante nas transações autônomas?

Inteligência Artificial

Confiante nas transações autônomas?

Não demora e teremos agentes de IA pagando contas, comprando e investindo. Como esses agentes provarão sua identidade para agir em nosso nome, sem a nossa intervenção direta, garantindo segurança e privacidade? 

Voz de IA, o próximo passo

Inteligência Artificial

Voz de IA, o próximo passo

A interface de bate-papo foi só o começo. A IA de Voz em tempo real está prestes a mudar tudo sobre como interagimos com computadores.

Estamos atingindo os limites de escala da IA?

Inteligência Artificial

Estamos atingindo os limites de escala da IA?

Modelos gigantescos já não estão entregando mais os melhores resultados. Talvez o próximo avanço em LLMs não venha do dimensionamento por força bruta. E isso pode ser bom.

Multiagentes de IA, um mundo de oportunidades

Inteligência Artificial

Multiagentes de IA, um mundo de oportunidades

Chegou a hora de dar boas-vindas aos ecossistemas que permitem que agentes autônomos de Inteligência Artificial se encontrem, colaborem, interajam e realizem transações de forma segura, eficiente e confiável. 

Buscas de IA disruptam o acesso e controle de informações

Inteligência Artificial

Buscas de IA disruptam o acesso e controle de informações

Entenda os pontos fortes e fracos dos principais competidores e por que essa briga envolve mais do que uma mera disputa por participação de mercado.

IA Generativa: Investimentos abrem nova era para as empresas

Inteligência Artificial

IA Generativa: Investimentos abrem nova era para as empresas

Com uma previsão de crescimento de 14% em gastos com software de IA até 2024, a integração da IA Generativa está mudando a forma como as empresas operam e competem no mercado