s
INTELIGÊNCIA ARTIFICIAL

IA Agêntica depende mais de gente que de código

Agentes prometem escala e eficiência, mas expõem limites organizacionais. O diferencial está na capacidade das empresas de gerir IA como rotina operacional.

O debate sobre IA corporativa está mudando rápido. Há dois anos, falava-se de governança e de riscos como barreiras. Hoje, no centro da conversa estão arranjos organizacionais que tornam agentes de IA não apenas utilizáveis, mas produtivos, confiáveis e integrados ao valor do negócio.

Para lideranças corporativas, isso implica repensar a IA não como um projeto isolado de tecnologia, mas como uma disciplina que combina governança proativa, novas métricas e competências humanas orientadas a produto. Mais importante do que perguntar se a IA pode transformar o negócio é avaliar se a organização tem o sistema operacional humano-tecnológico necessário para sustentar essa transformação.

Os números ajudam a dimensionar o ponto de inflexão. Um estudo recente da Deloitte indica que a curva de adoção de agentes de IA avança muito mais rápido do que os controles: apenas 21% das organizações relatam governança ou supervisão rigorosas, embora 23% já utilizem agentes atualmente — percentual que pode chegar a 74% nos próximos dois anos. O estudo contou com a participação de 3.235 líderes de negócios e TI em 24 países e seis setores: bens de consumo; energia, recursos naturais e indústria; serviços financeiros; ciências da vida e saúde; tecnologia, mídia e telecomunicações; e governo e serviços públicos.

CADASTRE-SE GRÁTIS PARA ACESSAR 5 CONTEÚDOS MENSAIS

Já recebe a newsletter? Ative seu acesso

Ao cadastrar-se você declara que está de acordo
com nossos Termos de Uso e Privacidade.

Cadastrar

Sem limites claros, decisões automatizadas tornam-se difíceis de explicar, complicadas de auditar e delicadas de segurar do ponto de vista de risco. A resposta passa por modelos de autonomia governada: agentes com fronteiras explícitas, políticas transparentes, níveis de permissão graduais, trilhas detalhadas de ações e escalonamento humano em decisões de maior impacto.

Esse tipo de abordagem forma a primeira camada do sistema operacional humano-tecnológico para IA. A governança deixa de ser um anexo da política de TI e passa a fazer parte do desenho do sistema, influenciando fluxos, permissões, logs, alertas e planos de contingência.

Na prática, isso exige tratar agentes como funcionários com privilégios elevados: emitir identidades únicas, aplicar o princípio do menor privilégio, registrar cada ação e acesso a dados e definir limites claros de aprovação humana por nível de risco, de modo que a autonomia seja proporcional à responsabilidade.

Governança que se comporta como engenharia de produção

Uma forma prática de ler o relatório é entender que governança eficaz de agentes se aproxima mais de engenharia de produção do que de compliance abstrato. O foco deixa de ser um conjunto genérico de proibições e passa a ser um conjunto explícito de decisões operacionais.

Isso inclui, por exemplo:

  • Níveis de autonomia por tipo de tarefa: visualizar dados, sugerir ações, executar com aprovação, executar de forma autônoma apenas em domínios de risco definido. Em vários modelos apresentados pela indústria, agentes começam em modo consultivo, evoluem para execução com aprovação humana e só assumem automação plena após demonstrarem confiabilidade em trilhas de baixo risco.
  • Segmentação por criticidade de fluxo: atendimento informativo, ajustes simples em cadastros, alterações contratuais, concessão de crédito ou reembolso passam a pertencer a faixas de risco diferentes, com limites e controles distintos.
  • Invariantes de negócio explicitados: regras que não podem ser violadas por nenhum agente — por exemplo, “sem reembolso duplicado”, “sem saldo negativo injustificado”, “sem dados pessoais sensíveis em logs” — tornam-se critérios técnicos, passíveis de teste ao longo do ciclo de vida do sistema.

Nesse modelo, a governança funciona como especificação operacional. Quem observa o sistema consegue identificar quais decisões agentes podem tomar, com quais dados, até que limites financeiros ou reputacionais, e com que evidência registrada para auditoria posterior.

Esse movimento prepara o terreno para a segunda camada do sistema operacional de IA: avaliação e métricas desenhadas para um mundo agêntico, não apenas para modelos de linguagem isolados.

Medindo o que realmente importa no mundo agêntico

O artigo “Evaluations for the agentic world”, da QuantumBlack, descreve de forma sistemática o que muda quando se abandona o modelo “um LLM respondendo a um prompt” e se passa a operar conjuntos de agentes que tomam decisões ao longo de fluxos de trabalho de negócio.

A proposta organiza a avaliação em três níveis:

  • Modelo (LLM): terreno mais conhecido, com métricas de factualidade, robustez, toxicidade, calibração e outras, medidas em cenários pré-definidos.
  • Agente individual: a unidade passa a ser o episódio. Importa saber se o agente chegou ao resultado correto, evitou ações inseguras, recuperou-se de falhas de ferramenta, comportou-se de forma coerente diante de entradas fora de distribuição. Os problemas surgem tanto no núcleo do LLM (alucinações, deriva de prompt) quanto na interface com ferramentas (chamadas inválidas, timeouts, uso inadequado de APIs) e na camada de memória (perda de contexto, recordações equivocadas, deriva de estado).
  • Sistema multiagente: o foco se desloca para o conjunto. A questão passa a ser se o sistema entrega o resultado dentro dos limites definidos, com coordenação aceitável. Entram métricas como taxa de violação de invariantes, número de handoffs por tarefa, taxa de trabalho duplicado, ocorrência de deadlocks, tempo até a resolução e pegada de recursos.

Para estruturar essa avaliação, a QuantumBlack propõe cinco eixos: capacidade/eficiência, robustez/adaptabilidade, segurança/ética, interação centrada no humano e economia/sustentabilidade. Na prática, as equipes selecionam cinco a sete métricas por workflow, mantendo-as estáveis para capturar regressões e drift ao longo do tempo.

Essa abordagem ganha força quando aplicada a casos reais.

Um dos exemplos apresentados pela QuantumBlack é o de uma operadora europeia que está construindo quatro casos de uso de IA Agêntica em atendimento ao cliente: verificação de identidade, status de pedido, recuperação de conexão e agendamento de técnico.

Os agentes operam de forma autônoma, com histórico compartilhado, sem repassar tarefas entre si. O time responsável desenhou uma camada de avaliação em duas frentes:

Avaliações funcionais com scripts de teste semi-automatizados que simulam cenários e verificam se o sistema se comporta de forma correta e consistente.

Avaliações de qualidade em produção, medindo se as respostas durante interações reais são de alta qualidade e seguras.

Para isso, utilizam um mecanismo de “agent-as-a-judge”: um agente avaliador pontua transcrições pós-atendimento com base em cenários de referência. As dimensões analisadas incluem qualidade end-to-end (resolução na primeira interação, precisão), segurança (privacidade, ausência de alucinações, respeito a políticas) e alinhamento com a marca (tom, clareza, profissionalismo).

Como alguns fluxos são voltados diretamente ao cliente final, a arquitetura inclui guardrails do provedor de nuvem combinados com filtros customizados de toxicidade, dano potencial e tom de voz, além de recursos adicionais de observabilidade na fase de go-live. O resultado é um sistema em que não se lança apenas um “bot” mais esperto, e sim um produto de atendimento com critérios claros de aceitação, mecanismos de regressão e um plano operacional para monitorar riscos.

O segundo caso é um banco europeu que utiliza agentes para reduzir o tempo gasto por gerentes de relacionamento na produção de relatórios de crédito empresarial, ao mesmo tempo em que constrói uma estrutura de avaliação reutilizável para replicar o modelo em outras áreas, como crédito ao consumidor, KYC, risco e desenvolvimento de software.

A distribuição de responsabilidades é deliberada:

  • usuários de negócio são responsáveis pelos dados de teste e pelos resultados;
  • uma equipe dedicada mantém a plataforma de avaliação.

As métricas combinam:

  • desempenho do modelo (latência, custo);
  • consistência e aderência a guidelines, usando LLMs como avaliadores;
  • acurácia factual (detecção de alucinações e vieses);
  • indicadores qualitativos coletados por meio de questionários preenchidos por especialistas de domínio, para avaliar a experiência do usuário.

Cada métrica é acompanhada em score e drift, com avaliações implementadas sobre uma plataforma de observabilidade (como Arize Phoenix) rodando a cada consulta para suportar a análise operacional. O passo seguinte é medir comportamento geral de agentes (convergência de caminhos, conclusão de tarefas) e agendar avaliações periódicas com conjuntos de teste fornecidos pelos usuários internos.

A partir daí, surge um padrão de “fábrica de avaliação” corporativa: uma linguagem comum de qualidade e risco, que permite escalar agentes para novas áreas de negócio sem recomeçar do zero.

Avaliação como metodologia, não como “checklist final”

Um ponto central do trabalho da QuantumBlack é o deslocamento temporal da avaliação. Ela deixa de ser um checklist final e passa a funcionar como metodologia contínua de desenvolvimento e operação.

O ciclo de vida descrito envolve três fases:

  1. Planejamento: times de produto, engenharia e especialistas de domínio definem comportamentos esperados, níveis de risco aceitáveis, KPIs e “golden datasets” representativos.
  2. Build: avaliações integradas a pipelines de CI/CD, usando cenários de teste pré-definidos e comparações com baselines sempre que se altera modelo, prompt ou ferramenta.
  3. Operação: monitoramento contínuo, tracing e análise de anomalias sustentam detecção precoce de drift, enforcement de guardrails e revisões periódicas dos próprios datasets e critérios.

Em escala, isso exige clareza operacional: quem define métricas, quem mantém datasets, quem aprova mudanças em fluxos sensíveis e quem responde a incidentes. Avaliação vira infraestrutura compartilhada.

Essa segunda camada se conecta diretamente à terceira: competências humanas orientadas a produto.

Habilidade de produto como condição de escala

Em artigo publicado pela Harvard Business Review, Amanda Pratt e Melissa Valentine, mostram que, embora a conversa sobre IA generativa ainda gire em torno de habilidades técnicas intermediárias, quem extrai valor consistente da IA aplica competências clássicas de gestão de produto.

Essa competências incluem definir problemas relevantes dentro de fluxos reais, avaliar alternativas com critérios claros, experimentar em ciclos curtos e integrar novas práticas à rotina das equipes. Em vez de buscar o “prompt perfeito”, a lógica de produto pergunta quais processos merecem redesenho, quais outcomes importam e como medir sucesso.

Baseada em 18 meses de estudo no Google sobre a adoção de IA Generativa e na observação de quase 2 mil  profissionais de diversos setores, essa lente é especialmente relevante para agentes. Que, na prática, alteram o modo de trabalhar: redesenham filas, prazos, exceções, acessos a sistemas e cadências de aprovação. Quando o desenho do produto é frágil, o agente amplifica a fragilidade.

Sem uma abordagem focada no produto, as tentativas dos funcionários de usar IA muitas vezes permanecem superficiais ou de curta duração. Sem uma noção clara de como aplicar IA aos seus problemas de maior valor, os funcionários podem ter dificuldade em encontrar um ponto de partida.

A gestão eficaz de produtos depende da experimentação ao longo do ciclo de vida típico do produto. Isso ajuda a refinar rapidamente o valor de uma solução. Da mesma forma, a tentativa e o erro são necessários para que os funcionários testem soluções e desenvolvam fluxos de trabalho de IA que sejam realmente valiosos. A experimentação pode estar recebendo críticas por sua suposta ineficiência ultimamente, mas a criação de novos fluxos de trabalho automatizados depende de aprender o que é possível, demonstrar o valor potencial e refinar tanto a definição do problema quanto os critérios de sucesso — tudo isso possibilitado pela experimentação.

Portanto…

Combinadas, essas frentes formam algo próximo de um sistema operacional humano-tecnológico para IA:

1 – Governança define fronteiras e responsabilidades – A camada inspirada pela Deloitte responde a perguntas como: que agentes podem fazer o quê, com quais dados, até qual limite, com que trilha de auditoria e com que escalonamento para humanos.

2 – Avaliação transforma fronteiras em métricas e processos – A abordagem da QuantumBlack mostra como converter limites em invariantes, KPIs e pipelines, que acompanham o sistema desde o planejamento até a operação, com casos concretos em telco e banco.

3 – Habilidade de produto conecta tudo a problemas reais de negócio – A tecnologia só se transforma em valor quando há gente capaz de definir problemas relevantes, desenhar workflows, experimentar e aprender com dados.

Na prática, construir esse sistema operacional significa habilitar a empresa a escolher fluxos de alto valor e risco controlável, definir invariantes e níveis de autonomia, estabelecer métricas essenciais, criar cenários de teste, integrar avaliação a CI/CD e monitoramento, e esclarecer ownership entre negócio e tecnologia.

Os elementos estão postos: a adoção de agentes acelera, a governança ainda é minoritária, as ferramentas de avaliação amadurecem e as competências críticas se revelam mais organizacionais do que técnicas. Em conselhos e comitês de risco, a pauta se desloca: menos foco em modelos e fornecedores, mais atenção à capacidade da empresa de operar agentes com controle, evidência e responsabilidade.

O diferencial competitivo, nesse cenário, não está apenas no algoritmo, mas na capacidade de sustentar esse sistema operacional humano-tecnológico que transforma autonomia em valor durável com risco administrado.

IA Agêntica depende mais de gente que de código

Inteligência Artificial

IA Agêntica depende mais de gente que de código

Agentes prometem escala e eficiência, mas expõem limites organizacionais. O diferencial está na capacidade das empresas de gerir IA como rotina operacional.

Quem define as regras quando agentes se coordenam?

Inteligência Artificial

Quem define as regras quando agentes se coordenam?

O que o experimento MoltBook revela sobre o valor econômico, a governança e a liderança em sistemas autônomos.

Capital cerebral: o limite invisível do crescimento na era da IA

Inteligência Artificial

Capital cerebral: o limite invisível do crescimento na era da IA

A economia avança com IA, mas esbarra na qualidade do julgamento humano — um fator ainda ausente das métricas e da governança corporativa.

A IA entrou no orçamento. Falta entrar no modelo de negócio


Inteligência Artificial

A IA entrou no orçamento. Falta entrar no modelo de negócio


Pesquisas da PwC e do MIT mostram por que os investimentos em IA avançam mais rápido do que a capacidade das empresas de capturar valor. E por que o problema não é tecnológico, mas estrutural.

A IA sai do chat e entra no caixa

Inteligência Artificial

A IA sai do chat e entra no caixa

A Anthropic aposta em agentes pagos; a OpenAI recorre à publicidade para sustentar a escala do ChatGPT.

Paradoxo latino: IA cresce, impacto não

Inteligência Artificial

Paradoxo latino: IA cresce, impacto não

Com ativos estratégicos e escala, o Brasil pode liderar ou perpetuar o descompasso regional.