A corrida pelo desenvolvimento de uma IA altamente responsiva esquentou essa semana, com os lançamentos do GPT-4o, pela OpenAI e do Project Astra, pelo Google (resumos dos principais recursos aqui). Os dois produtos nos dizem muito sobre as estratégias das respectivas empresas para a construção de uma killer application para o mercado de consumo, dado que a codificação tenha se tornado o uso mais expressivo dos LLMs até aqui.
Agrupar vídeo, áudio e texto em um “omnimodelo” que se comporta como um assistente universal gratuito que responde perguntas em tempo real começa a despontar como um caminho viável para a democratização do uso da IA a serviço do nosso quotidiano. Algo surpreendentemente poderoso.
Imagine interações tão fluidas quanto as de uma boa conversa, com uma IA capaz de lidar com interrupções naturalmente e executar uma variedade de tarefas, incluindo aquelas que necessitem da visão — e do reconhecimento de objetos e de imagens, inclusive em movimento. É nessa direção que OpenAI e Google caminham esse ano. Modelos que podem conversar sobre o que estão vendo podem destravar uma série de aplicações para a IA. Inclusive porque a combinação de visão, áudio e texto promete ser orientada por contexto. As oportunidades são enormes.
Este é um conteúdo exclusivo para assinantes.
Cadastre-se grátis para ler agora
e acesse 5 conteúdos por mês.
É assinante ou já tem senha? Faça login. Já recebe a newsletter? Ative seu acesso.
Se você já recebe nossas newsletters,
preencha seu e-mail que lhe mandaremos instruções
VoltarCrie sua senha para o e-mail
e atualize suas informações
É assinante ou já tem senha? Faça login. Já recebe a newsletter? Ative seu acesso.
Cadastre-se grátis, leia até 5 conteúdos por mês,
e receba nossa newsletter diária.
VoltarPronto! Só falta um passo.
Clique no link do e-mail que enviamos para
retornar aqui e finalizar seu cadastro.