INTELIGÊNCIA ARTIFICIAL

Quem manda nos agentes de IA?

Relatórios da Cisco e da McKinsey indicam que empresas estão concedendo autonomia operacional a sistemas de IA antes de estabelecer mecanismos confiáveis de controle.

Por Cristina De Luca 13/03/2026

Os melhores guardrails são aqueles que você não consegue contornar. Esse princípio orienta a engenharia de sistemas críticos há décadas. Infraestruturas que operam com risco elevado — redes financeiras, aviação, sistemas industriais — não dependem de instruções ou recomendações para evitar falhas. Elas operam com restrições técnicas que simplesmente impedem determinadas ações.

Grande parte da segurança aplicada hoje à inteligência artificial segue uma lógica diferente.

Os mecanismos de proteção usados em modelos generativos — alinhamento comportamental, filtros de conteúdo e regras de sistema — tentam orientar o comportamento desses modelos. Eles operam no nível da linguagem e da probabilidade estatística. Em vez de impedir estruturalmente uma ação, procuram convencer o sistema a não executá-la.

CADASTRE-SE GRÁTIS PARA ACESSAR 5 CONTEÚDOS MENSAIS

Já recebe a newsletter? Ative seu acesso

Isso funcionava enquanto a IA permanecia restrita a interfaces conversacionais. O problema é que esses sistemas começam agora a tomar decisões e executar ações de forma autônoma.

“A autonomia não é um recurso — é uma transferência de direitos de decisão”, afirma Rich Isenberg, sócio da McKinsey, em discussão recente sobre confiança em sistemas baseados em agentes.

Quando sistemas passam a executar tarefas dentro da infraestrutura de uma empresa, o tipo de controle necessário muda completamente. Estudos recentes indicam que essa transição já está produzindo efeitos. A McKinsey identificou que cerca de 80% das organizações já observaram comportamentos de risco em agentes de IA, incluindo execução de ações fora do escopo previsto, decisões inesperadas e interações imprevistas com sistemas corporativos.

Ao mesmo tempo, o relatório “State of AI Security 2026“, publicado pela Cisco, aponta que atores maliciosos continuam conseguindo contornar guardrails de modelos generativos por meio de engenharia de prompts e manipulação de contexto.

O problema é que esses ataques começam agora a se estender para sistemas mais complexos. Segundo a Cisco, organizações estão cada vez mais implementando agentes capazes de executar processos, acessar bases de dados e gerar código em nome de usuários humanos.

Quando esses sistemas operam com autonomia crescente sem mecanismos robustos de supervisão, surge uma nova categoria de vulnerabilidade corporativa.

A Cisco descreve esse fenômeno como “excessive agency” — agência excessiva.

Em outras palavras, a capacidade de ação da IA está crescendo mais rápido do que os mecanismos de controle.

Isso levanta uma questão central para executivos e conselhos de administração: como garantir que sistemas capazes de operar dentro da infraestrutura da empresa atuem dentro de limites verificáveis?

Guardrails que orientam comportamento

Grande parte da segurança aplicada hoje à IA concentra-se no comportamento do modelo.

Os mecanismos mais comuns incluem:

RLHF (reinforcement learning from human feedback) para alinhar respostas
filtros de conteúdo, que bloqueiam determinadas saídas
instruções de sistema, que orientam o comportamento do modelo

Esses mecanismos criam o que especialistas chamam de guardrails comportamentais. Eles representam uma das duas camadas de proteção existentes atualmente em sistemas de IA. Funcionam por meio de treinamento, regras linguísticas e interpretação de contexto. Eles tentam orientar como o modelo deve se comportar em determinadas situações. O problema é que podem ser persuadidos.

Ataques baseados em engenharia de prompts exploram exatamente essa característica. Ao manipular o contexto de uma conversa ou encadear instruções de forma estratégica, usuários conseguem levar o modelo a produzir respostas que os guardrails deveriam bloquear.

O relatório da Cisco observa que essas técnicas continuam sendo eficazes mesmo em modelos com múltiplas camadas de moderação, o que mantém os jailbreaks como uma das formas mais comuns de exploração de sistemas generativos.

Enquanto os modelos operavam isoladamente, esse tipo de ataque produzia impacto limitado — respostas problemáticas ou desinformação. A introdução de agentes altera essa dinâmica, por serem sistemas capazes de executar ações dentro de softwares corporativos. Eles podem consultar bancos de dados, chamar APIs, automatizar processos administrativos ou gerar código.

Quando um sistema com esse nível de acesso depende de guardrails persuadíveis, uma manipulação linguística pode resultar em uma ação concreta dentro da operação da empresa.

O problema deixa de ser informacional. Torna-se operacional.

Guardrails que limitam o sistema

A segunda camada de proteção envolve guardrails de arquitetura e sistema.

Eles incluem mecanismos como:

controle de permissões para agentes
ambientes de execução isolados (sandbox)
restrições de acesso a dados corporativos
auditoria das ações realizadas por IA
verificação criptográfica da origem de modelos e pipelines de treinamento

Diferentemente dos guardrails comportamentais, esses mecanismos não dependem da obediência do modelo. Eles funcionam porque determinadas ações simplesmente não são permitidas pela arquitetura do sistema.

Essa distinção ajuda a explicar um padrão que aparece implicitamente no próprio relatório “State of AI Security 2026″, da Cisco. Embora o estudo não formule explicitamente essa divisão, suas conclusões apontam para o mesmo problema: a maioria das vulnerabilidades observadas ocorre em mecanismos que tentam orientar o comportamento dos modelos — como filtros ou instruções de sistema — enquanto as recomendações de mitigação enfatizam controles estruturais, como limitação de permissões, isolamento de execução e auditoria de sistemas.

Outro ponto que começa a chamar atenção em pesquisas recentes é que o risco muitas vezes não está no modelo em si, mas na infraestrutura ao redor dele. Sistemas baseados em LLMs estão sendo conectados diretamente a bases de conhecimento corporativas, documentos internos, APIs e fluxos operacionais. Nesse contexto, o modelo passa a funcionar como uma interface para a infraestrutura da empresa.

O caso recente envolvendo a plataforma interna de IA da McKinsey, conhecida como Lilli, ilustra bem esse problema. Em um experimento conduzido pela empresa de segurança CodeWall, um agente de IA conseguiu explorar uma vulnerabilidade clássica de software — uma SQL injection — para obter acesso completo ao banco de dados do sistema em cerca de duas horas.

O ponto mais relevante não foi a vulnerabilidade em si, mas o que estava conectado ao sistema: dezenas de milhões de conversas internas, centenas de milhares de documentos corporativos, contas de usuários e até os system prompts que governavam o comportamento do modelo.

Isso revela uma nova superfície de ataque. Quando a inteligência artificial passa a operar como interface para o conhecimento corporativo, qualquer vulnerabilidade tradicional pode se transformar em um risco estratégico.

O experimento também mostrou outro fenômeno emergente: agentes explorando sistemas em velocidade de máquina. O agente foi capaz de mapear a superfície de ataque, testar hipóteses e encadear passos de exploração de forma autônoma — um padrão que pesquisadores já descrevem como machine-speed exploitation.

Portanto, não é apenas a IA que precisa ser segura. A arquitetura que conecta IA aos dados e sistemas da empresa também precisa estar preparada para operar em um ambiente onde agentes podem agir de forma autônoma.

Não por acaso, a discussão sobre IA corporativa começa a migrar do desempenho do modelo para confiança operacional.

Segundo analistas da McKinsey, o desafio da próxima fase da IA empresarial não será apenas melhorar a capacidade dos modelos. O desafio será garantir que sistemas capazes de operar dentro da infraestrutura da empresa atuem dentro de limites verificáveis.

Sem confiança — que depende diretamente de segurança e governança — a adoção tende a desacelerar.

Muitas organizações já enfrentam esse dilema. Pilotos de IA funcionam e demonstram ganhos de produtividade. No entanto, a integração desses sistemas em processos críticos continua limitada quando não existem mecanismos claros de auditoria e controle.

A próxima fase da adoção corporativa dependerá da capacidade das organizações de construir três capacidades institucionais que ainda estão em formação:

Auditoria, para registrar e rastrear decisões tomadas por sistemas de IA
Responsabilidade, para definir quem responde por ações executadas por agentes
Controle técnico, para limitar o acesso de sistemas autônomos a recursos críticos

Sem essas camadas, a automação baseada em agentes permanece limitada.

Casos recentes mostram como esses riscos podem se manifestar na prática. Em 2024, um agente de atendimento baseado em IA utilizado pela rede australiana Woolworths passou a gerar respostas incoerentes em interações com clientes após ser integrado a sistemas automatizados de atendimento.

Situações semelhantes apareceram em outros setores. Também em 2024, um chatbot da Air Canada forneceu informações incorretas sobre políticas de reembolso a um passageiro, levando a empresa a ser responsabilizada judicialmente pela orientação fornecida pelo sistema.

Casos como esses ilustram um ponto central: quando agentes de IA passam a interagir diretamente com clientes ou sistemas operacionais, erros deixam de ser apenas falhas de software e passam a se tornar riscos corporativos.

Empresas capazes de construir infraestrutura de confiança terão vantagem na próxima etapa da adoção corporativa de IA.

As demais provavelmente descobrirão que autonomia sem controle não acelera a transformação digital — apenas amplia o risco operacional.

Quem manda nos agentes de IA?

Relatórios da Cisco e da McKinsey indicam que empresas estão concedendo autonomia operacional a sistemas de IA antes de estabelecer mecanismos confiáveis de controle.

Guardrails que orientam comportamento

Guardrails que limitam o sistema

Matérias relacionadas

Inteligência Artificial

SAS Brasil aposta em governança e IA confiável

Inteligência Artificial

Atenção humana: o custo que agentes de IA não exibem na fatura

Inteligência Artificial

Aos 50 anos, SAS aposta em IA Agêntica, Gêmeos Digitais e Computaç�...

Inteligência Artificial

Musk vs. Altman: O julgamento que pode mudar a IA

Inteligência Artificial

A conversa como canal

Inteligência Artificial

IA sem gestão não entrega: gargalo virou execução, contexto e gest...

THE SHIFT

Quem manda nos agentes de IA?

Relatórios da Cisco e da McKinsey indicam que empresas estão concedendo autonomia operacional a sistemas de IA antes de estabelecer mecanismos confiáveis de controle.

Guardrails que orientam comportamento

Guardrails que limitam o sistema

Matérias relacionadas

Inteligência Artificial

SAS Brasil aposta em governança e IA confiável

Inteligência Artificial

Atenção humana: o custo que agentes de IA não exibem na fatura

Inteligência Artificial

Aos 50 anos, SAS aposta em IA Agêntica, Gêmeos Digitais e Computaç�...

Inteligência Artificial

Musk vs. Altman: O julgamento que pode mudar a IA

Inteligência Artificial

A conversa como canal

Inteligência Artificial

IA sem gestão não entrega: gargalo virou execução, contexto e gest...

THE SHIFT

Renove sua assinatura no plano anual e ganhe uma camiseta exclusiva da The Shift!

Sua assinatura está expirada

Renove sua assinatura no plano anual e
ganhe uma camiseta exclusiva da The Shift!