s
Ingressamos na próxima fronteira da IA generativa: a criação de vídeos a partir de textos
INTELIGÊNCIA ARTIFICIAL

Texto para vídeo, a próxima fronteira

Ainda nem nos recuperamos do espanto dos sistemas de IA generativa que produzem imagens a partir de textos e já ingressamos na próxima fronteira: a criação de vídeos a partir de textos

Modelos como DALL-E, Midjourney e Stable Diffusion capturaram a imaginação não apenas da comunidade de IA, como também de artistas, designers e criativos, em muitos domínios diferentes. Mas, nem bem eles começaram a aproveitar o surpreendente progresso desses sistemas de texto para imagem e já estamos avançando para a próxima fronteira: texto para vídeo. Na semana passada, a Meta revelou o Make-A-Video, um sistema de IA que gera vídeos de cinco segundos a partir de prompts de texto.

Construído usando conjuntos de dados de código aberto, a aplicação transforma descrições do tipo “um cachorro vestindo uma roupa de super-herói com uma capa vermelha voando pelo céu” em um clipe que, embora bastante preciso, tem a estética de um vídeo caseiro antigo e algumas imperfeições perceptíveis até para crianças.

De todo modo, estamos diante de um avanço na IA generativa que também levanta algumas questões éticas difíceis. Criar vídeos a partir de prompts de texto é muito mais desafiador e caro do que gerar imagens, e impressiona que a Meta tenha criado uma maneira de realizar isso tão rapidamente. Modelos assim precisam de muito poder de computação. Eles são um aumento computacional ainda maior do que grandes modelos de IA de texto para imagem, que usam milhões de imagens para treinar, porque montar apenas um vídeo curto requer centenas de imagens. E também são mais difíceis de treinar, porque não há tantos conjuntos de vídeos de alta qualidade, e larga escala, devidamente rotulados.

Este é um conteúdo exclusivo para assinantes.

Cadastre-se grátis para ler agora
e acesse 5 conteúdos por mês.

É assinante ou já tem senha? Faça login. Já recebe a newsletter? Ative seu acesso.

DALL-E e CLIP: uma palavra pode gerar mil imagens

Inteligência Artificial

DALL-E e CLIP: uma palavra pode gerar mil imagens

Modelos de processamento da OpenAI são capazes de criar imagens a partir de textos e classificar imagens de um jeito que nunca se viu

Por Redação The Shift
NeuroAI, a próxima fronteira

Inteligência Artificial

NeuroAI, a próxima fronteira

Ela está ajudando os neurocientistas a tornar os modelos cerebrais in silico mais precisos. Em breve, será possível baixar e usar modelos sensoriais, sob demanda, na saúde, na publicidade, etc.

Texto para vídeo, a próxima fronteira

Inteligência Artificial

Texto para vídeo, a próxima fronteira

Ainda nem nos recuperamos do espanto dos sistemas de IA generativa que produzem imagens a partir de textos e já ingressamos na próxima fronteira: a criação de vídeos a partir de textos