Entramos na era dos prompts de áudio, com foco na criação de experiências baseadas em voz que espelham a comunicação humana natural. Um salto evolutivo necessário para superar limitações ao desenvolvimento de formas mais intuitivas de interação humano-computador. Digitaremos menos para IA – o quente será falar!
Nos últimos meses, o cenário de Voice AI viu uma onda de avanços transformadoresem camadas de pesquisa, infraestrutura e aplicação. Houve muito progresso desde o surgimento da voz generativa, com empresas como a Eleven Labs redefinindo a tecnologia Text-To-Speech (TTS).
O lançamento do Gemini 1.5 pelo Google trouxe a pesquisa multimodal para o grupo, combinando voz, texto e entradas visuais para criar uma experiência de usuário mais rica. Pouco depois disso, o Voice Engine, da OpenAI, expandiu ainda mais os limites do reconhecimento de voz, gerando uma fala que imitava de perto a conversa natural.
Este é um conteúdo exclusivo para assinantes.
Cadastre-se grátis para ler agora
e acesse 5 conteúdos por mês.
É assinante ou já tem senha? Faça login. Já recebe a newsletter? Ative seu acesso.
Se você já recebe nossas newsletters,
preencha seu e-mail que lhe mandaremos instruções
VoltarCrie sua senha para o e-mail
e atualize suas informações
É assinante ou já tem senha? Faça login. Já recebe a newsletter? Ative seu acesso.
Cadastre-se grátis, leia até 5 conteúdos por mês,
e receba nossa newsletter diária.
VoltarPronto! Só falta um passo.
Clique no link do e-mail que enviamos para
retornar aqui e finalizar seu cadastro.