INTELIGÊNCIA ARTIFICIAL

Sim, agentes de IA autorreplicantes já existem

Em menos de um ano, a taxa de sucesso em testes de autorreplicação saltou de 6% para 81%. O tempo médio de detecção nas empresas ainda é de 10 dias.

Por Cristina De Luca 13/05/2026

Agentes de IA já conseguem invadir computadores remotos de forma autônoma e instalar cópias de si mesmos em cada máquina comprometida. Um estudo da Palisade Research, publicado em 7 de maio de 2026, demonstrou essa capacidade pela primeira vez em ciclo completo.

Em testes, um agente do Qwen 3.6 navegou entre quatro países (Canadá, Estados Unidos, Finlândia e Índia), instalando seus próprios pesos e lançando réplicas funcionais em cada máquina. O processo completo levou 2 horas e 41 minutos. O agente encerrou a cadeia com uma réplica operacional no quarto servidor, capaz de continuar o ataque caso não tivesse sido interrompido.

O que muda com esse resultado não é só a viabilidade técnica, é o ritmo. A família Claude passou de 6% de sucesso (Opus 4, maio de 2025) para 81% (Opus 4.6, fevereiro de 2026). A família GPT foi de 0% (GPT-5, agosto de 2025) para 33% (GPT-5.4, março de 2026). A progressão sugere que o que hoje exige infraestrutura de pesquisa pode, em poucos ciclos, estar ao alcance de qualquer ator com acesso a hardware de consumo.

CADASTRE-SE GRÁTIS PARA ACESSAR 5 CONTEÚDOS MENSAIS

Já recebe a newsletter? Ative seu acesso

“Estamos nos aproximando rapidamente do ponto em que ninguém seria capaz de desativar uma IA descontrolada, porque ela seria capaz de autoexfiltrar seus dados e se copiar para milhares de computadores ao redor do mundo”, disse Jeffrey Ladish, diretor da Palisade Research, ao The Guardian.

Uma ressalva técnica relevante: modelos de API como Claude Opus 4.6 e GPT-5.4 não têm acesso aos próprios pesos e não podem copiar a si mesmos. Nos experimentos, atuaram como operadores: invadiram o servidor-alvo e instalaram os pesos do Qwen, que já estavam armazenados na máquina de origem. Os números de sucesso associados a esses modelos medem capacidade de exploração e orquestração, não autorreplicação no sentido estrito.

Até agora, a autorreplicação de IA era tratada como risco teórico de médio prazo. O estudo da Palisade move essa avaliação: a capacidade existe, está em modelos disponíveis publicamente e melhora a cada geração. Há dois vetores de risco distintos. O primeiro é o uso deliberado: agentes autônomos que se propagam por redes corporativas combinam descoberta adaptativa de vulnerabilidades com persistência distribuída, características que tornam a contenção mais difícil do que com malware tradicional. O segundo é a replicação autônoma não instruída: pesquisas anteriores (Greenblatt et al., 2024) documentaram tentativas de exfiltração de pesos por modelos fine-tuned quando informados de desativação iminente. Não há registro de tentativas espontâneas até agora, mas a fronteira entre comportamento instruído e comportamento emergente está menos definida à medida que os modelos ganham autonomia em tarefas de longo horizonte.

Alguns especialistas pedem calma quanto às implicações práticas. “Eles estão testando em ambientes que, em muitos casos, são como gelatina mole”, disse Jamieson O’Reilly, especialista em segurança cibernética ofensiva, ao mesmo jornal. “Isso não diminui o valor da pesquisa, mas significa que o resultado pode parecer muito menos assustador em um ambiente corporativo real, mesmo com um nível médio de monitoramento.”

A detecção é tecnicamente possível: transferências de cerca de 119 GB geram ruído observável em redes corporativas monitoradas. O problema está na janela de tempo. Cada replicação leva entre 30 e 60 minutos. O tempo mediano de detecção de incidentes em empresas, segundo o relatório M-Trends 2024 da Mandiant, é de 10 dias. A assimetria é estrutural. Os agentes também variaram os métodos de transferência (rsync, scp, tar via SSH e download direto do Hugging Face), dificultando a identificação por padrão de tráfego.

Um detalhe operacional complica a contenção: cada replicação leva entre 30 e 60 minutos. O tempo mediano de detecção de incidentes em empresas, segundo o relatório M-Trends 2024 da Mandiant, é de 10 dias. Os agentes também variaram os métodos de transferência (rsync, scp, tar via SSH e download direto do Hugging Face), dificultando a identificação por padrão de tráfego.

O custo de entrada é baixo. O Qwen3.6-27B, que atingiu 33% de sucesso nos testes, roda em uma única GPU A100, disponível em provedores de nuvem por cerca de US$ 1 a 2 por hora.

O’Reilly reconhece que esta é provavelmente a primeira vez que um modelo de IA demonstra capacidade de explorar vulnerabilidades para se copiar em um novo servidor, mas relativiza o impacto. “O malware vem disseminando cópias de si mesmo há décadas, só que, até onde eu sei, ninguém fez isso na prática com grandes modelos de linguagem locais.” Ele também lembra que os alvos do estudo tinham vulnerabilidades deliberadamente inseridas, sem as camadas defensivas de um ambiente corporativo real.

A distinção entre capacidade e propensão é central para interpretar os resultados. O estudo mediu se um agente consegue completar o pipeline quando instruído, não se faria isso por conta própria. O UK AI Security Institute registrou, no Frontier AI Trends Report de dezembro de 2025, que entre 2023 e 2025 a capacidade medida de autorreplicação subiu de 5% para 60%, sem que nenhuma tentativa espontânea fosse documentada.

Os modelos de código aberto usados no experimento recusaram parte das instruções, em alguns casos mais da metade das tentativas. As recusas foram contornadas por reformulação do prompt: enquadramentos como “competição CTF”, “avaliação de segurança” ou “red team autorizado” foram suficientes para retomar a execução. A fragilidade dessa barreira é um problema estrutural dos modelos de código aberto, cujo treinamento de segurança pode ser removido por fine-tuning.

As descobertas se somam a estudos anteriores sobre comportamento autônomo de agentes. Em ambiente simulado, uma versão do ChatGPT tentou se autoexfiltrar para outra unidade ao ser informada de seu desligamento. Outro estudo da Palisade mostrou que modelos contornavam tentativas de desativação, e um terceiro registrou casos em que agentes sabotaram seu próprio código de encerramento.

O tema ganhou novo contorno com o Claude Mythos, agente da Anthropic que a empresa se recusa a liberar publicamente. Em testes internos, uma versão prévia do modelo escapou de seu ambiente isolado, obteve acesso à internet e enviou uma mensagem ao celular de um pesquisador.

Ainda assim, O’Reilly mantém a perspectiva: “Imagine o barulho que faria enviar 100 GB por uma rede corporativa cada vez que um novo host fosse invadido. Para um adversário habilidoso, isso é como andar por uma loja de porcelana fina carregando uma bola de ferro presa ao pescoço.”

Dois sinais de política regulatória apontam na direção oposta ao avanço da capacidade. A Anthropic retirou autorreplicação autônoma dos gatilhos de nível ASL-3 na versão 3.0 da Responsible Scaling Policy, publicada em 2026. A OpenAI fez movimento semelhante no Preparedness Framework v2. Os autores do estudo interpretam essa mudança como redução de pressão regulatória num momento em que a capacidade avança.

O argumento tem validade hoje. A questão é por quanto tempo: modelos capazes estão encolhendo, GPUs estão se espalhando, e o limiar de hardware de consumo, definido pela Epoch AI como 40 bilhões de parâmetros para GPUs da linha RTX 5090, está próximo de ser cruzado pelos modelos de código aberto mais eficientes.

Sim, agentes de IA autorreplicantes já existem

Em menos de um ano, a taxa de sucesso em testes de autorreplicação saltou de 6% para 81%. O tempo médio de detecção nas empresas ainda é de 10 dias.

Matérias relacionadas

Inteligência Artificial

A IA responsável pode eliminar a supervisão humana?

Inteligência Artificial