s
Brunno Santos, General Manager no Brasil da Elevenlabs Foto: Divulgação
ENTREVISTA

A voz como interface fundamental dos negócios

Da clonagem e geração de vozes artificiais à criação de música comercial incidental, a startup ElevenLabs montou um arsenal tecnológico para áudio gerado por IA. Agora, abre escritório no Brasil e aposta na criatividade local para crescer

Por Silvia Bassi 10/10/2025

Em 2021, dois amigos de colégio em Varsóvia, Mati Staniszewski e Piotr Dabkowski, decidiram resolver um incômodo antigo: o hábito polonês de dublar todos os filmes com uma única voz — masculina, monótona, indiferente à emoção dos personagens. “Era uma experiência horrível”, lembra Mati. “E pensamos: isso vai mudar.”

A ideia, nascida de uma cena doméstica — Piotr assistindo a um filme com a namorada, que não falava inglês —, virou o ponto de partida da ElevenLabs, hoje um dos unicórnios mais promissores da Inteligência Artificial global, com sede no Reino Unido. Com apenas três anos de idade, a empresa alcançou 40 milhões de usuários, está presente em 75% das 500 maiores companhias do mundo e dobrou seu valuation para US$ 6,6 bilhões, em setembro, com uma terceira rodada de aporte de fundos, liderada pela Sequoia Capital

O que começou como uma solução para dublagem evoluiu para algo bem maior: uma plataforma de áudio sintético que pretende transformar a voz na nova interface da era digital. Enquanto gigantes da IA concentravam seus esforços em texto e imagem, a ElevenLabs decidiu ocupar um espaço negligenciado: o som. “Ficamos focados em áudio — na pesquisa e no produto. Isso fez toda a diferença”, conta Staniszewski em uma entrevista no podcast da Sequoia.

A decisão se mostrou estratégica. Os modelos de texto são treinados em grandes volumes de dados públicos e estruturados; os de voz, não. Há pouca base de áudio de alta qualidade, e o desafio vai além do que é dito — envolve como é dito: emoção, ritmo, pausas, intenção. A ElevenLabs desenvolveu uma arquitetura própria capaz de capturar esse contexto e gerar vozes com naturalidade quase humana. “Pela primeira vez, os modelos de texto para fala entenderam o contexto e entregaram emoção e tom”, diz Mati.

Essa combinação de ciência e sensibilidade levou à criação de ferramentas que vão de text-to-speech e dublagem a agentes conversacionais. E, recentemente, de um modelo que adiciona “emoções” à fala com tags específicas — uma voz pode rir, hesitar, ou mudar de tom conforme o contexto. Staniszewski acredita que estamos perto do “Turing test da voz”: o momento em que uma conversa com um agente será indistinguível da interação com um humano. “Acho que podemos chegar lá ainda este ano”, afirma.

A ambição da ElevenLabs vai além da conversação. Staniszewski acredita que a IA de voz vai quebrar as barreiras linguísticas e culturais do planeta. “Se você leu O Guia do Mochileiro das Galáxias, lembra do Babel Fish — aquele peixinho que traduz tudo. Ele vai existir. A tecnologia vai tornar isso possível.” A ideia é permitir que qualquer pessoa fale com outra, em qualquer idioma, mantendo sua própria voz, sotaque e emoção. “Será um salto na troca cultural global. Imagine conversar com alguém na Índia e ser entendido como se fosse um diálogo nativo”, diz ele.

Enquanto a ElevenLabs expande globalmente sua tecnologia de voz com inteligência artificial, o Brasil desponta como um dos dez maiores mercados da empresa — tanto em receita quanto em uso. A companhia, que acaba de inaugurar escritório local, aposta no potencial criativo do país e na capacidade das empresas brasileiras de transformar a voz em uma nova interface de conexão com clientes. A empresa chega com 13 produtos ativos, incluindo o Eleven Music, que compõe trilhas a partir de prompts, e uma plataforma completa de agentes de voz, capaz de gerar clones, criar personas e integrar conversas com sistemas corporativos. No centro da estratégia estão qualidade, latência e escalabilidade. A meta é atingir interações tão naturais quanto uma ligação humana — hoje, a latência média da ElevenLabs é de 75 milissegundos, quase imperceptível.

Em entrevista à The Shift, Brunno Santos, diretor da ElevenLabs no Brasil, fala sobre os planos da empresa para a região, o impacto da voz na comunicação corporativa e o papel da IA como ferramenta de empatia, escala e humanização. “O brasileiro adotou a IA de texto — via WhatsApp — com enorme naturalidade. A voz é o passo seguinte. Ela cria empatia, aproxima, transmite sensibilidade. O texto informa, mas a voz conecta”, resume Brunno. Confira a entrevista completa abaixo.

"O texto informa, mas a voz conecta"

A ElevenLabs ganhou muita visibilidade nas últimas semanas, principalmente por causa do novo aporte, que levou ao valuation de US$ 6,6 bilhões. Mas eu queria começar pelo Brasil. Como está a experiência de vocês por aqui?

A experiência tem sido extremamente positiva — não só globalmente, mas também no Brasil. A ElevenLabs é uma empresa jovem, de três anos de idade, que lançou seu produto há dois. Nós nos definimos como um laboratório de inteligência artificial por voz, com três diferenciais principais.

O primeiro é o contexto. Temos um marketplace com mais de 5 mil vozes e a possibilidade de clonagem juridicamente correta e design de voz via prompt. Isso permite uma personalização granular — você pode descrever, por exemplo, “mulher de 40 anos, nascida em Minas Gerais, sotaque informal e amigável”, e o sistema gera uma voz com essas características.

O segundo diferencial é o suporte multilíngue. Hoje trabalhamos com mais de 70 idiomas, incluindo o português do Brasil, que tem um papel estratégico para a companhia.

Este é um conteúdo exclusivo para assinantes.

Cadastre-se grátis para ler agora
e acesse 5 conteúdos por mês.

É assinante ou já tem senha? Faça login. Já recebe a newsletter? Ative seu acesso.

TCS aposta no Brasil para acelerar inovação com centro global no Insper

Entrevista

TCS aposta no Brasil para acelerar inovação com centro global no Ins...

Com investimento de R$ 50 milhões e acesso à rede global de pesquisadores da TCS, o novo centro instalado no Insper acelera a co-inovação entre empresas, startups e universidades, conectando desafios locais a soluções globais, como co...

“A tecnologia não é mágica, ela potencializa o humano”

Entrevista

“A tecnologia não é mágica, ela potencializa o humano”

Amanda Andreone, diretora-geral da Genesys no Brasil, explica como a Inteligência Artificial redefine o papel humano no CX e transforma empatia em vantagem competitiva.

Transformação digital com tempero local

Entrevista

Transformação digital com tempero local

Com a plataforma EIA, a Ajinomoto do Brasil transforma seu modelo de gestão digital e amplia a criação de valor econômico e social. Alexandre Telles, diretor da companhia, explica o conceito.

“CISOs do futuro entendem de IA tanto quanto de risco”

Entrevista

“CISOs do futuro entendem de IA tanto quanto de risco”

Omar Khawaja, VP de Segurança e Field CISO da Databricks, veio ao Brasil para lançar o Data Intelligence for Cybersecurity. Nessa entrevista, ele fala sobre a relação de CISOs com a IA

A voz como interface fundamental dos negócios

Entrevista

A voz como interface fundamental dos negócios

Da clonagem e geração de vozes artificiais à criação de música comercial incidental, a startup ElevenLabs montou um arsenal tecnológico para áudio gerado por IA. Agora, abre escritório no Brasil e aposta na criatividade local para...

Uma aula de como transformar sucata em futuro

Entrevista

Uma aula de como transformar sucata em futuro

A primeira brasileira finalista do Global Teacher Prize mostra como tecnologia, inovação e criticidade podem transformar a educação pública e dar voz às periferias