s
INTELIGÊNCIA ARTIFICIAL

A corrida da IA no text-to-video

Nas últimas semanas, OpenAI e o Google revelaram novos modelos e recursos impressionantes, a um ritmo alucinante, cada um deles ampliando os limites do que a IA pode fazer.

Primeiro, a OpenAI deu ao ChatGPT a capacidade de lembrar conversas anteriores com os usuários, bem como seus detalhes e preferências pessoais. Em seguida, o Google lançou seu modelo mais potente, o Gemini 1.0 Ultra, em uma versão ampla. Em seguida, lançou de forma limitada um novo modelo Gemini 1.5 Pro com a mesma capacidade do Ultra, mas em um pacote menor e mais barato. O que torna o 1.5 Pro especial é sua "janela de contexto" notavelmente grande. Pode analisar uma hora de vídeo, 11 horas de áudio ou cerca de sete livros de texto. E, entre seus poderes, criar vídeos a partir de descrições. Na sequência, a OpenAI apresentou o Sora, um novo modelo de geração de texto para vídeo que pode produzir vídeos de um minuto com qualidade impressionante (e algumas alucinações).

O que poucos se deram conta foi que o movimento todo começou quando a Meta (outra concorrente de peso) publicou um artigo sobre a iniciativa V-JEPA (Video Joint Embedding Predictive Architecture). Pesquisadores da empresa encontraram uma forma de exigir menos dos algoritmos. Em vez de pedir aos algoritmos que encontrem padrões em cada píxel em movimento de um vídeo, eles selecionam um trecho importante da cena e pedem ao software para adivinhar, em termos gerais, o que está faltando.

A OpenAI e o Google fizeram seus anúncios focados no tripé:

  • Texto para vídeo: geração de vídeos sem esforço de até 60 segundos a partir de simples solicitações de texto. Há vários exemplos do Sora aqui.
  • Imagem em vídeo: transformação de imagens estáticas em cenas dinâmicas com movimento contínuo.
  • Aprimoramento de vídeo: adição de novas sequências a vídeos pré-existentes.

Este é um conteúdo exclusivo para assinantes.

Cadastre-se grátis para ler agora
e acesse 5 conteúdos por mês.

É assinante ou já tem senha? Faça login. Já recebe a newsletter? Ative seu acesso.

Robôs humanoides podem rivalizar com trabalho humano até 2030

Inteligência Artificial

Robôs humanoides podem rivalizar com trabalho humano até 2030

Com IA Generativa, custo em queda e mobilidade avançada, humanoides devem ganhar força na indústria e nas residências, de acordo com estudo

Protocolo A2A quer resolver a interoperabilidade entre agentes de IA

Inteligência Artificial

Protocolo A2A quer resolver a interoperabilidade entre agentes de IA

Nova padronização entre agentes lançada pelo Google promete reduzir custos e acelerar inovações

Guerra do futuro será travada por chips, genes e códigos

Inteligência Artificial

Guerra do futuro será travada por chips, genes e códigos

O novo relatório da OTAN revela um campo de batalha onde IA, Biotecnologia e Big Data definem estratégias, alianças e riscos inéditos

Bancos brasileiros apostam alto em Inteligência Artificial

Inteligência Artificial

Bancos brasileiros apostam alto em Inteligência Artificial

O crescimento do investimento é impulsionado por iniciativas estratégicas para viabilizar uma base tecnológica robusta, especialmente na adoção de IA, GenAI e Cloud

AI Index 2025: a corrida não é por capacidade, e sim por controle

Inteligência Artificial

AI Index 2025: a corrida não é por capacidade, e sim por controle

Relatório anual de Stanford mostra que a inteligência artificial ficou mais barata, rápida e onipresente — e que o verdadeiro poder está agora nas mãos de quem implementa

A nova era do trabalho exige IA para trabalhadores de todas as idades

Inteligência Artificial

A nova era do trabalho exige IA para trabalhadores de todas as idades

Garantir que tecnologias de IA sejam acessíveis e justas para trabalhadores mais velhos não é apenas um imperativo ético — é uma vantagem competitiva em um mundo que envelhece rapidamente