O mundo não é feito de palavras

Cristina De Luca

1 dia atrás

Em 3 de junho de 2026, Fei-Fei Li, cofundadora e CEO da World Labs, abriu um ensaio sobre World Models (modelos de mundo) com uma frase de quatro palavras: o mundo não é feito de palavras. A formulação condensa a tese que orienta a próxima rodada de investimento em IA. Modelos de linguagem deram às máquinas comando de conceitos, vocabulário e raciocínio, mas o ambiente físico, virtual ou real, opera sobre outro substrato. Onde modelos de linguagem aprendem a estrutura estatística do texto, segundo Li, os modelos de mundo (sistemas que representam estados, relações espaciais e dinâmica temporal) aprendem a estrutura do espaço e do tempo.

A mesma transição aparece dentro das empresas. Relatório da QuantumBlack, braço de IA da McKinsey, publicado em junho de 2026, registra que a IA passou a executar tarefas cognitivas e físicas com supervisão limitada, aproximando-se de uma força de trabalho operada por humanos. A combinação de agentes cognitivos e robôs inteligentes torna perto de 60% das horas de trabalho na Europa e nos Estados Unidos teoricamente automatizáveis, conforme análise do McKinsey Global Institute. O número mede viabilidade técnica, não adoção efetiva. O próprio relatório pondera que difusões tecnológicas desse porte levam décadas: a eletricidade levou mais de 30 anos para se espalhar.

O limite da linguagem é de contexto

A McKinsey separa a evolução em três saltos (Capítulo 1 do relatório). A IA Generativa de 2022 produzia texto sem executar tarefas. Os agentes de 2024 passaram a executar sequências de tarefas e manter contexto. Desde 2025, a soma de raciocínio com agentic skills (capacidades especializadas que codificam processos, regras e conhecimento operacional da empresa) transformou agentes genéricos em operadores de padrão profissional. Um exemplo do próprio relatório: um agente genérico responde a uma reclamação com um texto educado; com uma skill de sinistros, ele aplica a regra de escalonamento conforme o valor e o histórico do cliente, checa a conformidade regulatória e libera o reembolso dentro de um limite pré-aprovado.

CADASTRE-SE GRÁTIS PARA ACESSAR 5 CONTEÚDOS MENSAIS

Já recebe a newsletter? Ative seu acesso

No mundo físico, o relatório aponta três avanços paralelos: modelos de mundo, modelos visão-linguagem-ação (VLA, que convertem imagens e instruções diretamente em ações da máquina), inteligência embarcada e gêmeos digitais (réplicas virtuais nas quais os sistemas são treinados antes de operar no mundo real).

O gargalo que segura os modelos de linguagem é de contexto (a janela de informação disponível para o raciocínio do modelo). A Capgemini, em estudo do AI Futures Lab de 2026, registra que os ganhos de escalar LLMs estão em queda e sustenta, como posição dos seus autores, que alucinações são característica estrutural, não defeito corrigível por treino ou prompt. O documento cita o caso do robotáxi da Waymo que, em 30 de novembro de 2025, atravessou uma cena de prisão policial de alto risco no centro de Los Angeles. A cobertura da NBC News e da ABC News mostra o carro virando à esquerda em um sinal vermelho, a poucos metros do suspeito caído, o que matiza a leitura da consultoria de que o veículo apenas cumpria as regras de trânsito. A frase que resume o problema é de John Launchbury, então diretor do Information Innovation Office da DARPA, em apresentação de 2017: estatisticamente impressionante, mas individualmente não confiável.

A taxonomia proposta por Li no mesmo ensaio organiza o campo em três funções. Renderizadores produzem pixels com fidelidade visual. Simuladores produzem estado, com geometria e física verificáveis. Planejadores produzem ações. Em termos de negócio, o primeiro grupo serve à geração de imagens, o segundo a treinar máquinas em ambientes simulados e o terceiro a decidir a ação de um robô. Para Li, a simulação é o elo que sustenta as outras duas funções e recebe menos atenção do que o seu peso justifica. A World Labs aposta nesse ponto com o Marble, aplicativo que gera ambientes 3D a partir de texto, imagem ou vídeo, com saída em Gaussian splats, blocos matemáticos que descrevem a cena vista de qualquer ângulo.

O retorno depende de redesenho, não de adoção

A adoção de IA deixou de ser fator de diferenciação. A McKinsey registra que mais de 80% das empresas usavam IA em ao menos uma função em 2025, contra 50% em 2022, e que 62% experimentam agentes. Menos de 10% das organizações escalaram agentes em qualquer função isolada. Os ganhos relevantes aparecem quando o fluxo de trabalho é redesenhado por inteiro. A inserção de IA no processo existente entrega ganhos incrementais, com pouco efeito sobre o resultado.

Um exemplo concreto de redesenho é a fábrica de software em dois turnos descrita pela McKinsey: de dia, equipes humanas definem as especificações e os critérios de qualidade; à noite, um sistema de agentes executa código, testes e revisão em paralelo e entrega pela manhã as alterações prontas para conferência. Ciclos de 24 horas substituem sprints de semanas. Uma instituição financeira que montou essa estrutura para um sistema de pagamentos registra ganho de produtividade de 40% ou mais.

Os ganhos aparecem também fora do software. Uma distribuidora de energia europeia passou a identificar e verificar mais de 40% das chamadas por agente de voz, com queda de perto de 50% no custo de gestão das chamadas recebidas. A Amazon opera mais de 1 milhão de robôs e relata redução de até 25% no tempo de processamento de pedidos com o sistema Sequoia. A Renault, em piloto com o humanoide Calvin 40 da Wandercraft, anunciou no Strategy Day de 10 de março de 2026 a instalação de 350 unidades em 18 meses, com meta de reduzir em 30% as horas de produção por veículo.

O custo oculto está na economia da operação. A Capgemini, em relatório de 2026 sobre dimensionamento de modelos, registra que o treino do GPT-4 custou perto de US$ 100 milhões, estimativa atribuída a Sam Altman em 2023 e que vale como referência histórica, já que os custos de treino de modelos posteriores não são divulgados. O mesmo relatório aponta que agentes podem consumir até 1.000 vezes mais tokens que chatbots, número creditado ao Quartz, sem metodologia detalhada, que deve ser lido como ordem de grandeza. Boa parte desse custo está na infraestrutura de inferência, o gasto de rodar o modelo a cada uso.

O impacto ambiental entra na mesma conta. Entre 2.000 executivos ouvidos, 48% acreditam que suas iniciativas de IA elevam as emissões de gases de efeito estufa e 42% reexaminam metas climáticas por causa disso. O documento aponta que selecionar o modelo inicial adequado pode reduzir o uso de energia em até 70% com perda de 1% de acurácia, e que a compressão do modelo LlaMA-2 7B em implantação na Telefónica cortou 75% do consumo de energia.

Dependência, talento e a maturidade dos modelos

A McKinsey identifica uma nova dependência estratégica. À medida que capacidades migram para modelos de fundação (as grandes bases de IA de uso geral) e para a infraestrutura controlada por poucos fornecedores, parte do valor gerado tende a ser capturada por eles, no que o relatório chama de imposto cognitivo (Capítulo 3): a parcela do resultado das empresas que passa a ser apropriada pelos donos da infraestrutura de inteligência. No plano do trabalho, a estimativa é de que 75% dos papéis exijam redesenho relevante, enquanto apenas 30% dos CEOs supervisionam ativamente a agenda de IA, segundo levantamento da McKinsey de março de 2025.

Os modelos de mundo ainda não sustentam a aposta de mercado. Li classifica os planejadores como o estágio mais imaturo, confinado a demonstrações de laboratório. Martin Casado, general partner da Andreessen Horowitz e investidor da World Labs, em entrevista à Fast Company, reconhece que ninguém construiu uma arquitetura como essa antes e que não há certeza de que ela esteja correta. A escassez de dados 3D persiste. A Sora, tentativa da OpenAI no campo, foi anunciada para encerramento em 24 de março de 2026 e desligada em 26 de abril de 2026. Seu custo de operação é contestado: o Wall Street Journal apurou cerca de US$ 1 milhão por dia, enquanto estimativas da Forbes e da Cantor Fitzgerald citam até US$ 15 milhões por dia no pico de uso. Nicole Fraenkel, sócia da Khosla Ventures, na mesma reportagem, classifica produtos como o Marble de câmera cara e economicamente inúteis para agentes e robôs.

As projeções de mercado variam por ordem de grandeza. A PwC estimou em março de 2026 o mercado de IA física em US$ 503 bilhões até 2030. A NVIDIA estima mais de US$ 1 trilhão de mercado endereçável apenas para a plataforma Omniverse. Rev Lebaredian, vice-presidente de Omniverse e tecnologia de simulação da NVIDIA, chegou a citar ao Financial Times, em 2025, como mercado potencial (TAM), o valor de US$ 100 trilhões, próximo ao tamanho da economia global e que deve ser lido como estimativa de fornecedor.

Os próximos marcos?

A Renault prevê instalar 350 unidades do Calvin 40 em 18 meses.

A World Labs destinou o US$ 1 bilhão captado em fevereiro de 2026 a capacidade de processamento e dados para treinar seu modelo.

Os resultados de produtividade e de custo de energia desses programas mostrarão se o deslocamento da linguagem para o mundo físico alcança o P&L das empresas ou permanece no estágio de piloto, onde a McKinsey situa a maior parte das implantações atuais.