The Shift

IA por voz escala rápido, mas onde está o valor?

Após anos de progresso incremental, a IA por voz atingiu maturidade técnica suficiente para sair do estágio experimental e operar em escala. Melhorias simultâneas em reconhecimento de fala, compreensão de linguagem natural e síntese de voz, combinadas com maior capacidade computacional e redução de custos de infraestrutura, tornaram viáveis aplicações em tempo real com baixa latência.

O avanço já se traduz em adoção mensurável, com crescimento anual entre 4x e 10x na demanda empresarial, segundo o relatório “AI Voice: Who Will Run the Conversation?“, publicado pela CPaaS Acceleration Alliance (CPaaSAA) em 2026, que projeta também um CAGR entre 16% e 38% nos próximos cinco anos. Em paralelo, o volume de capital direcionado ao setor (incluindo a rodada de US$ 500 milhões da ElevenLabs, liderada pela Sequoia Capital em fevereiro de 2026, e investimentos em empresas como Decagon e Deepgram) indica entrada em fase de expansão acelerada, ainda sem consolidação.

Esse crescimento, porém, não é uniforme nem linear, o que limita a captura de valor fora de casos de uso específicos já consolidados. A maior parte das implementações permanece concentrada em tarefas com escopo bem definido, como transcrição, sumarização, qualificação de leads, automação de etapas do atendimento. Mas os números já aparecem: a Salient, plataforma de voz para financiamento automotivo, reporta 60% de redução no tempo de atendimento e mais de 39 milhões de interações processadas. Na Rasa, startup de serviços financeiros apoiada pela a16z e Accel, 75% dos clientes já solicitam agentes de voz personalizados. São casos com escopo claro e ROI mensurável, o que favorece a adoção. Fora desses contextos, a implementação permanece parcial e dependente de integração com sistemas existentes.

CADASTRE-SE GRÁTIS PARA ACESSAR 5 CONTEÚDOS MENSAIS

Já recebe a newsletter? Ative seu acesso

Ao cadastrar-se você declara que está de acordo
com nossos Termos de Uso e Privacidade.

Cadastrar

A voz como camada de execução

Essa assimetria ajuda a explicar a natureza da transformação em curso. A IA por voz não está apenas ampliando um canal existente. Está reorganizando a forma como interações são executadas dentro das empresas. O relatório da CPaaSAA descreve esse movimento como a transição para Intelligent Engagement, em que comunicação, IA e workflows passam a operar de forma integrada, com impacto direto em produtividade, tempo de resposta e conversão.

Nesse modelo, a voz perde centralidade como canal e passa a funcionar como ponto de entrada para sistemas que executam tarefas e acionam processos. A cadeia de valor está se reorganizando em quatro camadas: infraestrutura, inteligência, execução e dados. E a dinâmica competitiva sugere uma tendência de padronização relativa nas duas primeiras, à medida que fornecedores e modelos se multiplicam. Em contrapartida, execução e dados concentram valor crescente por estarem diretamente ligados à operação e por criarem dependência estrutural nos sistemas corporativos.

É nesse ponto que emerge o principal gargalo. A limitação não está na qualidade dos modelos de voz, mas na capacidade de integrá-los a sistemas corporativos e operá-los em tempo real com controle e governança. Sem conexão com CRM, sistemas de tickets, pagamentos e bases de conhecimento, a IA permanece isolada e não captura valor operacional. Sem orquestração em tempo real, não consegue intervir durante a interação. Sem governança, não escala. O relatório aponta riscos associados a essa camada, incluindo falhas de compliance, custos elevados de inferência e dependência de fornecedores.

O campo competitivo em redefinição

Esse contexto redefine o campo competitivo. Plataformas de comunicação tentam expandir seu papel da infraestrutura para a execução. Empresas de software corporativo incorporam voz diretamente aos workflows. Startups avançam em verticais onde o escopo é claro e a tolerância a ineficiência é baixa: na logística, Fleetworks e HappyRobot automatizam chamadas com transportadoras para confirmar cargas e transmitir atualizações em tempo real; nos seguros, Liberate e Sonant cobrem subscrição e recebimento de sinistros com suporte 24/7 e tempo de espera zero; na saúde, a Phoebe coordena assistência domiciliar e documentação clínica com modelos ajustados para conformidade regulatória. Laboratórios de IA continuam evoluindo modelos e experimentando interfaces, mas ainda sem convergência clara.

A própria evolução das interfaces permanece em definição. Em março de 2026, a Anthropic lançou modo de voz no Claude Code — seu assistente de programação via linha de comando — ampliando o uso em contextos sem teclado, sem reposicionar a voz como interface dominante. Em paralelo, ferramentas como o AI Workspace da Genspark indicam uma direção multimodal, em que voz, texto e elementos visuais coexistem dentro de um mesmo ambiente de trabalho. Esses movimentos indicam que a voz está sendo incorporada como capacidade complementar dentro de sistemas multimodais, não como padrão único de interação.

Interface como decisão estratégica

Esse ponto se torna mais evidente no nível de produto. Recentemente, equipes do Pinterest entraram em conflito com a liderança executiva sobre a adoção de voz em sua experiência — episódio reportado pelo newsletter Department of Product em março de 2026. O CEO da empresa defendia apostar forte em voz, argumentando que as expectativas da Geração Z estavam mudando e que interfaces conversacionais fariam as compras parecer “conversar com um amigo”. As equipes de design rebateram, apontando que forçar uma experiência de voz numa plataforma construída em torno da descoberta visual silenciosa arriscava destruir sua proposta de valor central.

O episódio evidencia que a interface deixou de ser determinada pela limitação tecnológica e passou a ser uma decisão estratégica com impacto direto em retenção, usabilidade e posicionamento.

A escolha da modalidade — voz, texto, imagem ou combinações — passa a afetar diretamente métricas operacionais e de produto. Em alguns contextos, a voz reduz fricção e aumenta eficiência. Em outros, introduz ambiguidade, reduz controle do usuário e pode comprometer a proposta central da experiência. A ausência de um padrão dominante sugere que o mercado ainda está em fase de experimentação, com trajetórias distintas entre setores e tipos de aplicação.

Viabilidade econômica e limites operacionais

Os limites operacionais acompanham essa expansão. Custos de inferência em tempo real, exigências regulatórias relacionadas a dados sensíveis e variabilidade de desempenho entre idiomas e contextos tornam a viabilidade econômica dependente de decisões de arquitetura e governança. Esses fatores tendem a se tornar mais relevantes à medida que a escala aumenta.

A trajetória mais provável aponta para convergência, não substituição. A voz tende a se consolidar como parte de sistemas multimodais, integrada a outras formas de interação. Nesse cenário, o diferencial competitivo não estará na capacidade de reconhecer ou sintetizar fala, mas em conectar interações a processos, dados e decisões de forma consistente.

Os dados indicam que a viabilidade técnica deixou de ser o principal limitador. A questão passa a ser quem controla a execução das interações tende a capturar o valor econômico gerado por elas.