Por décadas, a IA existiu dentro de interfaces de tela. Nos últimos anos, principalmente dentro de janelas de bate-papo. O modelo dominante da computação, que Daniel Wigdor, professor de ciência da computação da Universidade de Toronto, chama de WIMP (janelas, ícones, menus e ponteiro) estruturou a relação entre humanos e máquinas por mais de 40 anos. Agora, a indústria está apostando que esse modelo chegou ao seu limite. A próxima interface, segundo essa leitura, não está na tela: está no ambiente.
A escala financeira da aposta indica que poucos estão dispostos a ficar de fora. Parte da euforia vem de uma mudança concreta na física dos custos: a fabricação de um humanoide caiu 40% entre 2023 e 2024, segundo o Goldman Sachs, bem acima da redução de 15% a 20% esperada pelo mercado. Com a barreira financeira recuando, mais de US$ 5 bilhões foram investidos em startups do setor em 2026, segundo o PitchBook, superando o recorde do ano anterior. Com um em cada quatro dólares de capital de risco em robótica destinado a humanoides, negócios na casa das centenas de milhões tornaram-se rotina: a Apptronik, spin-off da Universidade do Texas, captou US$ 520 milhões no início do ano, triplicando sua avaliação em 12 meses, enquanto a Robotera, chinesa, levantou mais de US$ 200 milhões em um intervalo de semanas.
Para entender por que a indústria está apostando no corpo, é necessário entender o que ela está tentando superar. O modelo WIMP definiu a computação pessoal desde os anos 1980: o usuário age, a máquina responde, a troca é sequencial e mediada por uma tela. Os chatbots de IA Generativa reproduzem essa lógica com vocabulário novo — o usuário digita ou fala, aguarda a resposta, repete.
“Quando um dispositivo consegue ver sua mesa, ouvir o que está acontecendo na sala e projetar informações diretamente no seu espaço físico, a interface deixa de ser algo que você visita e passa a ser algo em que você está inserido”, disse Wigdor, em entrevista à IBM Think. Lenovo e Hugging Face já testam dispositivos de mesa com câmeras, microfones e projetores integrados ao espaço de trabalho.
O protótipo AI Workmate da Lenovo (acima) combina uma pequena tela que funciona como um rosto com um braço articulado para câmera e um projetor que exibe documentos em superfícies próximas. A Hugging Face, plataforma de código aberto mais conhecida por hospedar modelos de aprendizado de máquina, oferece um dispositivo auxiliar para desktop chamado Reachy Mini , equipado com câmeras, microfones e uma cabeça motorizada, projetado para desenvolvedores que experimentam sistemas de IA capazes de ver, ouvir e interagir com pessoas em tempo real.
Além disso, a startup Thinking Machines Lab, fundada pela ex-diretora de tecnologia da OpenAI Mira Murati, apresentou recentemente sistemas projetados para processar áudio, vídeo e texto simultaneamente, sem depender da troca de turnos típica dos chatbots atuais. A direção é a mesma: substituir a interação episódica por presença contínua.
O caso mais citado como prova de conceito industrial é o da startup Figure AI, que em 2024 iniciou testes na fábrica da BMW em Spartanburg, Carolina do Norte, com seu robô humanoide executando tarefas simples de manuseio de peças em linha de montagem. O piloto se estendeu por 11 meses com o Figure 02 e gerou ampla cobertura midiática. Mas deixou em aberto a pergunta central: o humanoide executa aquela tarefa melhor do que um braço robótico convencional, ou apenas de forma mais fotogênica?
Fady Saad, sócio da Cybernetix Ventures, resume o problema em análise publicada pelo PitchBook: “Não há uma razão forte e racional para os níveis atuais de investimento. Eles são legais, mas existe um apego psicológico ou uma obsessão com eles que simplesmente não é prático.” O argumento tem base física: chãos de fábrica foram projetados para rodas e esteiras, não para pernas articuladas. Adotar estrutura bípede eleva custo e pontos de falha mecânica sem ganho verificável de eficiência sobre sistemas industriais fixos já consolidados.
A história recente da robótica física oferece um padrão que o ciclo atual ainda não incorporou à sua narrativa. O Jibo, lançado em 2017, e o Anki Vector, lançado em 2018, eram dispositivos de mesa com câmeras, microfones e personalidade digital. Ambos foram descontinuados no ano seguinte ao lançamento. Em ambos os casos, o diagnóstico dos usuários convergiu: após as primeiras semanas, o dispositivo não justificava o espaço ocupado. Uma caixa de som inteligente entregava funções equivalentes por uma fração do custo.
Gabe Goodhart, arquiteto-chefe de Inovação Aberta em IA da IBM, formula o mesmo limite com precisão: “O maior desafio será projetar uma plataforma que tenha uma razão real para ser incorporada.” O ciclo atual apresenta dispositivos mais sofisticados e modelos de linguagem mais capazes. O que ainda não apresenta é evidência de que o padrão de abandono foi superado.
Há um argumento mais estrutural por trás do investimento que vai além da utilidade imediata. Laboratórios como o Google DeepMind, com o projeto RT-2 (Robotic Transformer 2, lançado em 2023), defendem que modelos de linguagem atingiram um teto porque conhecem o mundo exclusivamente por meio de texto. Para avançar em direção à Inteligência Artificial Geral (a AGI), a IA precisaria aprender as leis físicas do ambiente (gravidade, fricção, permanência de objetos) por interação direta com o mundo real.
Nessa leitura, o investimento em humanoides não se destina a vender robôs em 2026. Destina-se a gerar os dados de treinamento que a próxima geração de sistemas vai exigir. O retorno não é operacional no curto prazo: é epistêmico no longo prazo. Para fundos com horizonte de dez anos, esse argumento tem coerência. Para empresas avaliando implementação agora, tem menos.
Essa é a consequência que os defensores da IA incorporada raramente colocam no centro da conversa. No momento em que o espaço de trabalho deixa de ser o lugar onde a interface está e passa a ser a interface, tudo que acontece dentro dele torna-se input. Convivência, deslocamento, tempo de presença, interações laterais: dado.
“A principal preocupação é o que eu chamaria de problema da participação involuntária”, disse Wigdor à IBM Think. “Seus colegas, visitantes e qualquer pessoa que passe por esse espaço também estão sendo observados.” Se os trabalhadores perceberem que sua presença física foi transformada em input contínuo para painéis de gestão, a dinâmica psicológica do ambiente muda de forma permanente. As pessoas deixam de apenas trabalhar; passam a performar para os sensores.
Heather Knight, pesquisadora de robótica e ex-professora da Universidade Estadual do Oregon, aponta que alternativas técnicas existem para reduzir a exposição: sensores piroelétricos identificam presença sem capturar identidade. “Rastrear um corpo quente com dispositivos piroelétricos não identifica você da mesma forma que a voz ou a imagem”, disse Knight à IBM Think. O problema é que essas alternativas reduzem também a capacidade dos sistemas.
A dimensão corporativa do risco segue a mesma lógica. Se interfaces de texto já produziram restrições formais — em abril de 2023, a Samsung proibiu o uso do ChatGPT após a descoberta de vazamento de código proprietário, acelerando políticas similares em bancos e escritórios jurídicos — dispositivos físicos com câmeras e microfones abertos em salas onde se discutem fusões e patentes representam um vetor de exposição de outra ordem. A resistência à IA incorporada não virá apenas dos trabalhadores. Virá dos diretores de segurança da informação.
Para lideranças executivas, a decisão de implementação exige uma pergunta anterior: qual problema específico a IA física resolve que a IA de tela não resolve. Sem essa resposta, a compra segue narrativa de mercado. A indústria parece convencida de que a próxima interface computacional é o espaço físico. O que ainda não está provado é se o espaço físico precisa dela ali.
Os pilotos de robótica física em curso em 2026 vão indicar, com mais precisão do que qualquer anúncio de investimento, quais casos de uso resistem ao contato com o ambiente real e quais repetem o padrão do Jibo: muito entusiasmo, pouca razão para ficar.
Craig Flower, recém-nomeado COO da Zendesk, explica como a empresa saiu de 20% para 65% de auto-resolução no próprio atendimento — e o que isso significa para qualquer empresa que queira usar IA de verdade
A indústria aposta que a próxima interface computacional é o espaço físico. Os dados de investimento sustentam a tese. Os casos de uso, ainda não.
Na conferência anual em Denver, a Zendesk apresentou soluções que integram agentes e copilotos em uma força autônoma que deixa para os humanos as decisões mais complexas
Tom Eggemeier percorreu Milão, Madri e Atenas e encontrou executivos pedindo mais velocidade, não menos. Na conferência anual da empresa, ele explica por que 80% de suas conversas com clientes já não são sobre atendimento ao cliente �...
O lançamento dos interaction models pela Thinking Machines redefine a fronteira entre homem e máquina. Mas cuidado: a tecnologia que resolve o gargalo técnico pode ser a mesma que atrofia as habilidades sociais do seu time.
Pesquisa do MIT SMR e do BCG responde: não! Painel com 31 especialistas globais indica que a supervisão humana em IA exige mais do que verificar outputs: exige julgamento em todo o ciclo de vida dos sistemas.
Aproveite nossas promoções de renovação
Clique aquiPara continuar navegando como visitante, vá por aqui.
Cadastre-se grátis, leia até 5 conteúdos por mês,
e receba nossa newsletter diária.
Já recebe a newsletter? Ative seu acesso
