INTELIGÊNCIA ARTIFICIAL

O trabalho invisível da IA Física

Empresas contratam trabalhadores domésticos para coletar os dados que vão treinar humanoides. A disputa por esse ativo pode definir os vencedores da próxima onda da IA.

Por Cristina De Luca 07/06/2026

Quando Zeus volta do hospital para seu estúdio em uma cidade do centro da Nigéria, liga o ring light, prende o iPhone na testa com uma faixa e começa a gravar. Levanta as mãos à frente do corpo como um sonâmbulo e faz a cama. Move-se devagar para manter as mãos dentro do campo da câmera. Repete o procedimento com outras tarefas domésticas, submete os vídeos semanalmente e recebe US$ 15 por hora — renda boa em uma economia com alto desemprego.

Acha o trabalho entediante. É estudante de medicina e prefere tarefas que o façam pensar.
Zeus é trabalhador da Micro1, empresa de Palo Alto que coleta dados do mundo real para vender a fabricantes de robôs. Seu CEO, Ali Ansari, estimou ao MIT Technology Review que empresas de robótica já gastam mais de US$ 100 milhões por ano em dados reais coletados por trabalhadores como Zeus, e que a demanda cresce de forma acelerada.

Em 3 de junho de 2026, a Figure AI anunciou uma parceria com a Brookfield Asset Management para transformar mais de 100 mil unidades residenciais em fonte de dados de treinamento para o Helix, seu robô humanoide. No mesmo dia, o Rest of World publicou reportagem sobre o ecossistema paralelo que a China construiu para o mesmo problema. A JD.com, em parceria com o governo local de Suqian, planeja contratar 100 mil funcionários e 500 mil trabalhadores terceirizados. Em Pequim, a startup X Square Robot enviou um humanoide ao apartamento de Daniel Wang, que pagou 149 yuans (US$ 22) pelo serviço de três horas de limpeza. A principal função do robô era observar e registrar.

CADASTRE-SE GRÁTIS PARA ACESSAR 5 CONTEÚDOS MENSAIS

Já recebe a newsletter? Ative seu acesso

Na semana anterior, o TechCrunch publicou que a Human Archive, startup fundada por pesquisadores de UC Berkeley e Stanford, paga trabalhadores de aplicativos de serviços domésticos na Índia para usar bonés com câmeras enquanto limpam casas. Tem mais de 1.000 headsets em campo e paga US$ 1 por hora.

Quatro geografias, uma mesma lógica: o petróleo desta corrida não está em servidores. Está em cozinhas, lavanderias e linhas de montagem. E os trabalhadores que o extraem raramente sabem quanto ele vale.

O gargalo que a Internet não resolve

Investidores despejaram mais de US$ 6 bilhões em humanoides em 2025, segundo dados do Crunchbase. A justificativa circula em todo comunicado de captação: assim como modelos de linguagem aprenderam a gerar texto treinando em vastas coleções da internet, humanoides aprenderão a agir no mundo físico treinando em dados massivos de movimento humano. A analogia tem apelo imediato. Os dados mostram que ela é incompleta.

Modelos de linguagem usaram dados que já existiam: trilhões de palavras escritas por humanos ao longo de décadas. A robótica física não tem equivalente. Cada episódio de treinamento exige hardware operando em ambiente físico com um operador humano qualificado ou um protocolo cuidadosamente controlado. A taxa de coleta é medida em episódios por hora, não por segundo.

Um relatório da Stellaris VP publicado em abril, após meses de entrevistas com pesquisadores de laboratórios de robótica, quantificou a dimensão do problema: os dados de treinamento físico disponíveis hoje estão entre 0,1% e 1% do que modelos de linguagem precisaram para atingir capacidade de fronteira. O setor precisa de um aumento de 100x a 1.000x nos datasets egocêntricos para que a IA física atinja seu potencial.

O dado também não pode ser simulado com fidelidade suficiente: simulações treinam robôs para acrobacias, mas não ensinam como agarrar e mover objetos, porque a física simulada não reproduz o atrito, a deformação e a compliance do mundo real.

A Toloka documentou o problema central em fevereiro de 2026: robôs com bom desempenho em demonstrações geralmente aprenderam com dados simulados, com iluminação controlada, objetos previsíveis e comportamento humano padronizado. Na primeira vez que entram em uma casa real, a ilusão se desfaz.

O setor trabalha com quatro tipos principais de dados, cada um com custo e utilidade distintos. Dados de demonstração são produzidos por teleoperação: um operador humano controla o robô remotamente enquanto o sistema registra cada movimento. É o padrão-ouro para aprendizado por imitação, mas exige equipamento especializado e gera entre 5 e 15 episódios por hora.

Dados de interação registram o robô em execução autônoma, incluindo falhas, e alimentam ciclos de melhoria iterativa. Dados sintéticos, gerados em simulação, produzem volume ilimitado e anotação perfeita, mas o estudo “Data Scaling Laws in Imitation Learning for Robotic Manipulation“, de outubro de 2024, atualizado outubro de 2025, quantificou o trade-off: aproximadamente 8 amostras sintéticas entregam o benefício equivalente a 1 amostra de teleoperação em tarefas dentro do domínio de treinamento. O quarto tipo, vídeo humano sem robô presente, é o que está sendo coletado em escala agora.

Vídeos egocêntricos de pessoas realizando tarefas domésticas são baratos de coletar e carregam a variabilidade do mundo real. A limitação histórica era a ausência de rótulos de ação: o vídeo mostra o que aconteceu, mas não os comandos motores que um robô precisaria para reproduzir o comportamento.

O problema é que o vídeo bruto por si só não é suficiente. A coleta de dados egocêntricos de alta qualidade combina vídeo em primeira pessoa com diversos outros sinais:

Vídeo sincronizado Em boa resolução, frequentemente de mais de um ângulo (cabeça, peito ou pulso)
Dados de profundidade Isso ajuda um modelo a entender a que distância um objeto está, e não apenas onde ele aparece no quadro.
Dados do sensor de movimento (IMU) que rastreia os movimentos da cabeça e do corpo quadro a quadro.
em áudio — o que carrega uma quantidade surpreendente de contexto, como uma faca em uma tábua ou uma pessoa falando por perto.
Rastreamento de mãos ou olhos para tarefas em que atenção e preensão são importantes

O Projeto Go-Big, da Figure AI, se baseia em uma aposta técnica: humanoides têm cinemática e perspectiva similares às humanas, o que permitiria transferir estratégias de navegação diretamente de vídeo humano para controle robótico. A empresa afirma ter obtido navegação por voz em ambientes desorganizados treinada 100% com vídeo humano, sem nenhuma demonstração do robô. O resultado parte da própria Figure AI e não foi verificado por laboratórios independentes.

A pesquisa acadêmica oferece respaldo parcial à hipótese geral, não ao resultado específico. O paper EgoMimic (arXiv, outubro de 2024; IEEE ICRA 2025) demonstrou que incorporar dados egocêntricos sem robô supera baselines com dados apenas de robô em desempenho de manipulação, com melhora de 34% a 228% dependendo da tarefa, especialmente em ambientes não vistos durante o treinamento.

O PhysBrain, submetido ao arXiv em dezembro de 2025 e revisado em fevereiro deste ano, identificou que a dependência de dados em terceira pessoa cria um “viewpoint gap” estrutural para humanoides, e propôs vídeo egocêntrico humano como ponte entre modelos de linguagem visual e inteligência física.

Mas o estudo mais robusto disponível é o EgoScale, publicado pelo GEAR Lab da NVIDIA Research em fevereiro de 2026: treinando um modelo VLA em 20.854 horas de vídeo egocêntrico humano com rótulos de ação, mais de 20 vezes o volume de esforços anteriores, os pesquisadores identificaram uma lei de escala log-linear entre volume de dados humanos e perda de validação, com R²=0,9983. Essa perda correlaciona diretamente com desempenho real do robô em tarefas de manipulação dextral. A política resultante, combinando pré-treino em escala com uma pequena quantidade de dados alinhados humano-robô, melhorou a taxa média de conclusão de tarefas em 54% sobre a baseline sem pré-treino.

Todos esses estudos indicam viabilidade inicial para tarefas específicas em escala laboratorial. Falta evidência de que a abordagem funcione para robótica doméstica de propósito geral: a distância entre um experimento controlado com 2 mil demonstrações e um humanoide operando de forma confiável no apartamento de Daniel Wang ,em Pequim, ainda não tem medida publicada.

A falácia do volume

O mercado em formação tem um equívoco estrutural embutido, e ele se torna visível no relato dos próprios trabalhadores.

Zeus, o estudante nigeriano, enfrenta um problema concreto: seu estúdio pequeno limita a variedade de tarefas que consegue gravar. Arjun, tutor em Delhi, leva uma hora para produzir 15 minutos de vídeo porque passa muito tempo inventando tarefas novas. “Quanto conteúdo você consegue fazer em casa? Quanto conteúdo?”, perguntou ao MIT Technology Review. Trabalhadores em ambientes domésticos limitados não geram a diversidade que os modelos precisam.

A ciência é categórica a respeito. O estudo Data Scaling Laws coletou mais de 40 mil demonstrações e executou mais de 15 mil rollouts reais. O resultado central: a performance segue uma relação de power-law com o número de ambientes e objetos, não com o volume total de demonstrações. A diversidade de contextos físicos importa mais do que a quantidade de horas gravadas; uma vez que o número de demonstrações por ambiente ou objeto atinge certo limiar, demonstrações adicionais têm efeito mínimo. O mesmo estudo mostrou que dados de 32 ambientes, cada um com um objeto único e 50 demonstrações, são suficientes para treinar uma política com 90% de taxa de sucesso para qualquer novo ambiente e objeto.

O EgoScale (NVIDIA Research, fevereiro de 2026) confirmou e refinou esse padrão: a lei de escala log-linear identificada no estudo, com R²=0,9983, indica que os ganhos de desempenho com volume de dados humanos são previsíveis e consistentes, desde que a qualidade e a estrutura do pipeline de coleta sejam mantidas.

Pesquisa de julho de 2025, “Is Diversity All You Need for Scalable Robotic Manipulation“, acrescentou um achado contraintuitivo: a diversidade de especialistas confunde o aprendizado robótico. Preferências operacionais individuais e variações estocásticas nas demonstrações humanas introduzem ruído que prejudica a eficiência do treinamento. Um método de debiasing desenvolvido no mesmo estudo gerou ganhos de 15% equivalentes a usar 2,5 vezes mais dados de pré-treinamento. Operadores demais com estilos diferentes produzem resultado inferior ao de poucos operadores com protocolo consistente.

A Mecka AI chegou a uma conclusão semelhante por um caminho diferente. A startup usa sensores corporais, gloves táteis e câmeras de pulso para capturar dados multimodais: movimento, força de contato e profundidade sincronizados com imagem RGB. A Human Archive segue a mesma lógica: usa mais de 50 dispositivos diferentes em campo, incluindo luvas táteis e suits de captura de movimento. Zach DeWitt, sócio da Wing VC e investidor da Human Archive, declarou ao TechCrunch que “ninguém mais no mundo conseguiu sincronizar e coletar headset RGB-D, feedback de força, captura de movimento de corpo inteiro e câmeras de peito e pulso em escala.”

Isso tem implicação direta sobre os modelos de coleta em massa. Dez mil horas coletadas com diversidade controlada de ambientes, objetos e protocolo consistente produzem políticas mais robustas do que 10 milhões de horas coletadas por crowdsourcing sem estrutura. Os contratos com trabalhadores raramente especificam critérios de qualidade além do tempo gravado.

O problema mais preciso, porém, não é coletar volume suficiente. É transformar volume em dados utilizáveis. A Toloka descreve o processo de anotação de qualidade como dependente do que chama de “julgamento físico”: a intuição sobre se um prato está em posição estável antes de ser solto, se um movimento foi executado com força adequada, se a sequência capturada representa a tarefa ou um erro de execução. Esse julgamento exige sincronização precisa de múltiplos sensores, consistência de protocolo entre operadores, cobertura deliberada de casos de falha e verificação da fidelidade das ações registradas em relação às intenções do operador.

Nenhum desses requisitos está garantido por contrato de horas gravadas. O mercado está pagando por capturas. O que os modelos precisam são sequências verificadas, anotadas e estruturadas. Uma etapa que consome tempo e custo comparáveis aos da coleta em si, e que raramente aparece nas projeções públicas de custo por episódio.

Um paper publicado pelo Ant Group, Academia Chinesa de Ciências e Universidade de Pequim em fevereiro de 2026 (arXiv 2602.23893) propõe uma solução para esse gargalo: o sistema AoE (Always-on Egocentric) usa suportes de pescoço para smartphone, com custo abaixo de US$ 20 por usuário, e um app com processamento no dispositivo que filtra e anota o vídeo automaticamente antes de enviá-lo para servidores em nuvem. A proposta elimina a necessidade de hardware especializado e de revisores humanos por vídeo.

O paper compara o AoE com teleoperação, wearables dedicados e vídeo passivo em cinco critérios — custo, escalabilidade, não-intrusividade, facilidade de deploy e qualidade de dado — e posiciona a abordagem como o método de coleta de maior alcance disponível, com trade-off explícito em qualidade em relação a sistemas de captura mais sofisticados. Sua proveniência é relevante: é uma solução de infraestrutura desenvolvida por instituições chinesas para resolver o problema de coleta em escala que a própria China enfrenta.

Uma corrida em quatro frentes

Por trás da mobilização geográfica há uma lógica econômica que nenhum comunicado oficial formula claramente: dados físicos coletados em escala, com diversidade verificada e anotação de qualidade, são um ativo escasso que não se replica rapidamente. Quem construir os maiores e melhores datasets de movimento físico pode adquirir, para a robótica, uma posição análoga à que OpenAI, Google e Anthropic adquiriram na IA generativa por meio de dados, computação e distribuição antecipada.

O modelo não é a vantagem durável. Podem ser copiados e superados. O dataset é. É essa tese que explica por que a Mecka AI captou US$ 60 milhões com receita ainda projetada, por que a Figure mobiliza 100 mil imóveis residenciais antes de ter produto doméstico no mercado, e por que governos locais chineses financiam centros de treinamento físico como infraestrutura estratégica.

EUA, China, Índia e Coreia do Sul chegaram ao mesmo diagnóstico por caminhos distintos. O mapa geográfico dessa corrida revela uma hierarquia de custo e de modelo institucional que nenhum comunicado oficial nomeia diretamente.

O modelo americano é baseado em startups venture-backed com custo de mão de obra elevado. A MicroAGI lançou em Nova York um serviço gratuito de limpeza residencial: faxineiras usam câmeras acopladas à cabeça — o que o cofundador Bercan Kilic chama de “chapéu mágico” — para registrar o trabalho em primeira pessoa. Paga US$ 20 por hora e declarou ter distribuído mais de US$ 5 milhões no primeiro trimestre de 2026 a mais de 10 mil operadores em 15 países. Harry Kilberg, gerente geral da empresa, afirmou que o lançamento atraiu “milhares e milhares de reservas”, com Nova York em primeiro lugar e Londres, Munique e Zurique em seguida.

A Mecka AI, com US$ 60 milhões captados, projeta receita anual de US$ 100 milhões. A Micro1 opera em escala global a partir do Vale do Silício: trabalhadores em 60 países, vetting por agente de IA, pagamentos de US$ 15 por hora nos mercados em que atua.

O modelo chinês combina crowdsourcing doméstico com infraestrutura estatal. A JD.com recruta 500 mil trabalhadores para filmar tarefas em casa. Governos locais financiaram 40 centros de treinamento de robótica até dezembro de 2025, segundo a Interact Analysis: instalações físicas com áreas de até 10 mil m² equipadas com dezenas de robôs, onde trabalhadores como Kim, estudante de ciência da computação em Xangai, repetem movimentos com exoesqueletos nos braços centenas de vezes por dia. “Nos chamamos de cyber-laborers”, disse Kim ao Rest of World, usando pseudônimo. “É um bico razoável, mas um tanto entediante.”

O maior centro, em Shijingshan, na periferia de Pequim, foi lançado pelo governo local em parceria com a empresa Leju e inclui 16 cenários para treinamento: linha de montagem automotiva, casa inteligente e asilo. A China também está desenvolvendo simulação de ambientes residenciais: em 5 de junho de 2026, pesquisadores da Ace Robotics e da Universidade de Hong Kong anunciaram o Kairos-HomeWorld, framework capaz de gerar cenários de casa inteira com mais de 15 objetos manipuláveis a partir de prompts de texto.

O modelo indiano é o mais recente. A Human Archive integra trabalhadores de aplicativos de serviços domésticos e paga US$ 1 por hora. Foi rejeitada pela Urban Company, cuja CEO declarou publicamente que a empresa não participaria. O Ministério de Eletrônica e Tecnologia da Informação da Índia abriu investigação sobre os mecanismos de consentimento dessas operações em maio de 2026. O Times of India reportou que outras startups, como Pronto, Neocambrian e Humyn Labs, também coletam vídeo egocêntrico de trabalhadores de serviços.

A Coreia do Sul representa uma quarta variante: parceria entre empresa e hotel, com trabalhadores usando câmeras nas mãos durante o trabalho, inserida na estratégia nacional de converter know-how industrial em vantagem em IA física.

A hierarquia de remuneração por hora gravada é o dado que o setor raramente coloca lado a lado: US$ 20 nos EUA, US$ 15 na Nigéria via Micro1, US$ 3 na China, US$ 1 na Índia via Human Archive. O dado gerado é tecnicamente equivalente. O trabalhador que o produz não tem visibilidade sobre quanto vale.

A Stellaris VP identificou um risco estrutural que o mercado ainda não precificou adequadamente: a oferta de dados já supera a demanda em uma a duas ordens de magnitude. Muitos fornecedores entraram no mercado após o surto de funding em robótica. A DoorDash fechou parceria direta com uma empresa de robótica para coleta egocêntrica, cortando intermediários. O gap entre entrar no mercado e operar em escala, com hardware próprio, protocolos validados por laboratórios e presença em múltiplas geografias, é onde a seleção natural acontece. Os sobreviventes serão difíceis de deslocar.

Marco Wang, analista da Interact Analysis, sintetizou a disparidade ao Rest of World: os EUA lideram em acesso a talentos de IA de ponta e pesquisa de modelos robóticos, mas “em termos de hardware e ecossistema de dados, a China está na liderança.” O mesmo analista alertou para o risco de capacidade ociosa nos centros estatais: “There are some potential bubbles” (“há algumas potenciais bolhas”).

Teleoperação via smartphone

Uma abordagem paralela emergiu da academia. Em 5 de junho de 2026, pesquisadores da Georgia Tech, UC Berkeley, NYU Abu Dhabi, Universidade de Toronto e Nvidia apresentaram na IEEE ICRA o Cobalt, aplicativo que permite a qualquer pessoa com smartphone controlar um braço robótico remotamente e gerar dados de treinamento no processo. O usuário move o celular e o braço robótico imita os movimentos em tempo real; a sequência é registrada e usada para treinar algoritmos de controle autônomo.

Os pesquisadores testaram o sistema com participantes de nove países, incluindo estudantes do ensino médio sem experiência prévia com robótica, e relataram que a qualidade dos dados foi compatível com dados gerados por headsets de VR profissionais. Se confirmado em tarefas mais complexas, o Cobalt indica que teleoperação de qualidade pode ser obtida sem operadores especializados nem equipamento dedicado, o que altera o custo estrutural do pipeline de dados.

A economia do treinamento

O Silicon Valley Robotics Center publicou em 2026 parâmetros que tornam a escala do desafio concreta. Para uma tarefa de manipulação com múltiplos objetos, atingir 90% de taxa de sucesso exige entre 500 e 1.000 demonstrações. Para tarefas condicionadas a linguagem, como “pegue o copo vermelho” ou “coloque na prateleira de cima”, o volume sobe para 2.000 a 5.000 demonstrações por tarefa.

Laboratórios de robótica convergem na necessidade de 100 milhões a 1 bilhão de horas de dados egocêntricos nos próximos dois a três anos, segundo a Stellaris VP. A preços entre US$ 15 e US$ 50 por hora — vídeo bruto não anotado na base, dados de alta fidelidade totalmente anotados no topo — isso implica entre US$ 1,5 bilhão e US$ 50 bilhões em gasto acumulado com dados. As compras seguem ciclos de campanha: um laboratório adquire centenas de milhares de horas antes de um ciclo de treinamento, avalia o modelo resultante e decide o que comprar a seguir.

O custo de anotação estratifica o mercado em camadas com retornos distintos. Dados para políticas de tarefa única custam entre US$ 0,02 e US$ 0,05 por episódio. Dados para modelos condicionados a linguagem chegam a US$ 0,50 por episódio. Para políticas hierárquicas com segmentação de subtarefas, o custo vai a US$ 2,00 por episódio. A diferença separa pipelines industrializáveis de conjuntos adequados apenas para pesquisa.

Para quem avalia datasets, o benchmark de referência para teleoperação é o Open X-Embodiment, esforço comunitário que reúne centenas de horas de demonstrações cross-embodiment. Para vídeo egocêntrico, os benchmarks estabelecidos são Ego4D e EPIC-KITCHENS, mais escaláveis, mas sem anotações 3D pareadas para manipulação dextral. Não existe, até junho de 2026, um benchmark consolidado que compare diretamente as duas abordagens em condições equivalentes.

As equipes mais avançadas já operam um ciclo de melhoria contínua: após o treinamento inicial, o robô é implantado com registro contínuo de todas as execuções, incluindo falhas. Os dados de falha alimentam a coleta adicional direcionada aos pontos de ruptura identificados. Esse ciclo iterativo produz, segundo o SVRC, ganhos de 15 a 25% na taxa de sucesso em comparação com equipes que treinam uma única vez.

Quando os humanoides chegam às casas

A pergunta sobre prazo circula em salas de conselho e recebe, com frequência, respostas otimistas sem base verificável. O consenso das análises de mercado independentes é mais cauteloso.

Segundo projeções de analistas da IDTechEx, humanoides começarão a operar em casos de uso específicos em 2026 e 2027, expandindo para tarefas mais complexas entre 2028 e 2033. Aplicações de propósito geral fora do setor industrial, como saúde e uso doméstico, estão ainda mais distantes. Os primeiros robôs humanoides domésticos devem chegar entre 2027 e 2030, com preços iniciais entre US$ 20 mil e US$ 50 mil.

O Goldman Sachs projeta embarques globais chegando a 76 mil unidades até 2027 em seu cenário base, bem abaixo das 500 mil unidades que alguns participantes do mercado têm precificado. Também segundo o Goldman Sachs, o mercado de humanoides pode atingir US$ 38 bilhões até 2035, segundo estimativa do próprio banco.

O Barclays Research, em relatório de janeiro de 2026, projeta entre US$ 40 bilhões no cenário base e US$ 200 bilhões no cenário otimista para o mesmo período. Dan Ives, da Wedbush Securities, foi mais além ao CNBC em junho de 2026: descreveu humanoides como “a maior oportunidade de mercado da Revolução da IA” e projetou um mercado de trilhões de dólares na próxima década. A amplitude das projeções — de US$ 38 bilhões a trilhões — é ela mesma um dado: o setor ainda não tem consenso sobre o tamanho do mercado que está construindo.

A estrutura de adoção tem três ondas. A primeira, de 2025 a 2030, cobre aplicações industriais a preços entre US$ 80 mil e US$ 250 mil por unidade. Os pilotos já em andamento incluem BYD-UBTECH (100 a 200 unidades, o maior deployment comercial de humanoides até agora), GXO-Agility Robotics (100 unidades contratadas até 2026) e BMW-Figure AI (15 a 30 unidades em Spartanburg). A segunda onda, de 2027 a 2033, mira consumidores e educação a preços entre US$ 5 mil e US$ 25 mil. A terceira, a partir de 2030, cobre saúde e cuidado de idosos, condicionada a prazos regulatórios.

O pipeline de coleta hoje alimenta principalmente a segunda e terceira ondas. O robô que dobra roupa no apartamento de Daniel Wang em Pequim não estará operando comercialmente em residências antes de 2028, no cenário mais otimista dos analistas independentes.

O que os contratos não dizem

Moradores de imóveis Brookfield não têm clareza sobre quais dados são coletados, por quanto tempo são retidos, para quais finalidades secundárias podem ser usados e se há mecanismo de revogação após o consentimento inicial. Vídeos egocêntricos de ambientes domésticos registram mais do que movimentos: capturam rotinas, objetos pessoais, presença de crianças, padrões de comportamento de idosos e layout interno de residências.

A Micro1 instrui trabalhadores a não mostrar o rosto à câmera e remove informações pessoais com IA e revisores humanos. O que informa a trabalhadores em Nigéria, Índia e Argentina sobre quem adquire os dados, para qual finalidade e por qual valor não está documentado publicamente. A Human Archive afirma exibir aviso de privacidade e garantir que rostos são borrados, medidas consideradas insuficientes pelo Ministério de Eletrônica e Tecnologia da Informação da Índia, que abriu investigação sobre os mecanismos de consentimento das operações em maio de 2026.

Na China, trabalhadores dos centros estatais e dos programas de crowdsourcing doméstico operam sob contratos cujos termos sobre propriedade dos dados raramente são detalhados. A pergunta sobre quem detém o dado coletado, o trabalhador, o centro de treinamento, o governo local ou a empresa de robótica que o adquire, não tem resposta padronizada no setor.

As respostas para quatro perguntas básicas não estão documentadas publicamente em nenhum dos modelos de coleta em operação até junho de 2026. Quem é o proprietário legal dos dados após a coleta? Os dados podem ser revendidos a terceiros sem novo consentimento? Os trabalhadores recebem remuneração recorrente se os dados forem licenciados ou reutilizados? O consentimento dado inicialmente pode ser revogado? A ausência dessas respostas reduz custos operacionais e amplia a flexibilidade de uso dos datasets, o que ajuda a explicar por que o setor avançou mais rápido do que a regulação.

O panorama regulatório está em movimento, mas corre atrás dos fatos. O GDPR europeu cobre dados biométricos quando usados para identificação, mas não antecipou o caso de uso de treinamento de IA física em ambientes privados. Uma atualização proposta pela Comissão Europeia no quarto trimestre de 2025 amplia obrigações de IA, e o processamento de dados biométricos já aciona automaticamente os requisitos do Artigo 35, que exige avaliação de impacto.

Nos EUA, os estados de Colorado, Texas e Illinois têm proteções específicas para dados biométricos, sem cobertura do caso de uso de coleta doméstica para treinamento robótico. O Departamento de Justiça americano emitiu em janeiro de 2025 regra final que restringe transferências de dados sensíveis em volume, incluindo dados biométricos, para países como China. Para empresas que operam coleta cross-border ou usam fornecedores chineses de anotação, esse enquadramento cria risco regulatório que ainda não está precificado nos modelos de negócio.

Alan Fern, professor de robótica da Oregon State University, observou ao Rest of World que a lógica de escala aplicada à robótica, mais dados produzindo robôs melhores, “não é uma ideia completamente maluca. É apenas algo ainda não comprovado.” A ausência de evidência empírica robusta sobre generalização em larga escala coexiste com investimentos de centenas de milhões de dólares e com a coleta ativa de dados de populações que não têm visibilidade sobre o valor que estão gerando.

O que importa

O mercado de dados para robótica física está em formação com estrutura de incentivos assimétrica: quem financia captura valor de longo prazo; quem fornece os dados recebe compensação pontual sem participação no ativo gerado. O padrão repete o histórico das plataformas digitais, com uma diferença de escala: os dados aqui não são cliques ou preferências, são os movimentos físicos detalhados de trabalhadores dentro de suas próprias casas e locais de trabalho, em países onde US$ 1 ou US$ 3 por hora representam renda relevante.

A Stellaris VP estima que a transição de dados coletados por humanos para dados gerados pelos próprios robôs em campo está de 5 a 7 anos de distância de deslocar a demanda de forma significativa. O flywheel autônomo precisa de robôs implantados em escala. E os dados precisam vir de algum lugar antes de haver robôs autônomos suficientes no mundo para gerá-los. A analogia com o RLHF é precisa: o aprendizado por reforço com feedback humano não eliminou as empresas de dados no mundo dos LLMs. Criou novas categorias de trabalho de dados. O mesmo padrão deve se repetir na IA física.

Uma lacuna permanece sem resposta publicada até junho de 2026: não existe benchmark público que compare diretamente a qualidade de generalização de dados de teleoperação versus vídeo egocêntrico em condições equivalentes. Os bilhões investidos em coleta de dados não têm ainda uma métrica consensual para verificar se o que está sendo coletado é o que os modelos precisam.

A União Europeia concentra as condições regulatórias mais favoráveis a uma mudança de enquadramento: a combinação de GDPR e AI Act cria pressão crescente para que dados de movimento coletados em domicílios sejam classificados como categoria sensível. Nos EUA e na China, a regulação avança mais devagar do que a coleta. A velocidade de mobilização, 500 mil trabalhadores previstos pela JD.com, 40 centros estatais operando na China, 100 mil imóveis cedidos pela Brookfield e operações ativas em Nigéria, Índia, Argentina e Coreia do Sul, indica que o objetivo é escalar antes que qualquer restrição exista.

As empresas não dizem isso. Mas o calendário diz.

O trabalho invisível da IA Física