s
INTELIGÊNCIA ARTIFICIAL

A economia da IA mudou

Modelos mais baratos não significam menor gasto. Embora o preço por token tenha caído, o volume de uso passou a definir a conta.

Entender a economia da IA não é só para diretores financeiros e engenheiros de infraestrutura. Cada vez que você envia uma mensagem para o ChatGPT, Claude ou Gemini, uma taxa é cobrada. Você pode não perceber, especialmente se tiver uma assinatura de US$ 20 por mês. No entanto, se você estiver usando o OpenClaw ou algum outro tipo de agente de IA com APIs, provavelmente estará pagando por cada token.

A maioria das pessoas interage com IA por meio de uma assinatura fixa. Você paga a mensalidade, conversa o quanto quiser — na maioria dos casos, alguns provedores têm limites — e isso é tudo o que você precisa saber. Mas, no momento em que você passa de um simples chat com IA para o uso de agentes ou para o desenvolvimento com IA, a estrutura de custos rapidamente se torna evidente. Os aspectos econômicos que você antes ignorava se tornam tangíveis de repente. O custo começa a correr quando você chama APIs, implanta agentes, integra modelos em produtos de software.

De interação para execução

Usuários avançados de ferramentas como Claude Pro e ChatGPT vêm atingindo limites de uso com frequência crescente. Em paralelo, fornecedores como a Anthropic estão revisando contratos empresariais, restringindo padrões de uso e introduzindo cobrança mais diretamente vinculada ao consumo. Esses movimentos não são independentes. Eles refletem uma mudança no padrão de uso de IA — e expõem um desalinhamento entre o modelo de precificação herdado do SaaS e a economia real desses sistemas.

CADASTRE-SE GRÁTIS PARA ACESSAR 5 CONTEÚDOS MENSAIS

Já recebe a newsletter? Ative seu acesso

Ao cadastrar-se você declara que está de acordo
com nossos Termos de Uso e Privacidade.

Cadastrar

O uso de IA deixou de ser predominantemente interativo. Perguntas e respostas ainda existem, mas estão sendo substituídas, especialmente em contextos profissionais, por execução contínua de tarefas. Sistemas baseados em agentes realizam múltiplas etapas para resolver um problema, iteram sobre resultados intermediários, mantêm contexto extenso e operam em segundo plano. Uma única tarefa pode envolver dezenas ou centenas de chamadas de inferência. O consumo deixa de estar associado a uma interação pontual e passa a refletir um fluxo de execução.

Para entender o que isso significa em números concretos: um modelo de linguagem não lê palavras, lê tokens. Um token corresponde aproximadamente a três quartos de uma palavra em inglês. A frase “O gato sentou-se no tapete” vira seis tokens. A palavra “inacreditável” vira três. A regra prática: 1.000 tokens equivalem a cerca de 750 palavras; textos técnicos ou código chegam a dois tokens por palavra. Um script Python de 50 linhas ultrapassa 500 tokens com facilidade, porque cada colchete, dois pontos, nova linha e indentação são tokens separados.

O preço é definido por milhão de tokens — MTok —, com taxas separadas para tokens de entrada (o que você envia: prompt, contexto, instrução de sistema) e tokens de saída (o que o modelo gera em resposta). Tokens de saída custam de três a cinco vezes mais do que os de entrada, porque gerar texto exige mais poder computacional do que processá-lo. Em março de 2026, o Claude Opus 4.6 cobrava US$ 5 por milhão de tokens de entrada e US$ 25 de saída — proporção de cinco para um. A fórmula é direta: custo = (tokens de entrada / 1M × preço de entrada) + (tokens de saída / 1M × preço de saída). O que não é direta é a escala que os agentes introduzem nessa equação.

Essa mudança de interação para execução altera a unidade econômica do produto. E o primeiro lugar onde ela se torna visível é na margem.

O problema econômico

O modelo de software por assento assume custo marginal baixo por usuário. Um novo usuário adiciona pouca pressão sobre a estrutura de custo — o sistema já existe, a licença já foi desenvolvida, o servidor já está rodando. Em sistemas de IA, essa premissa não se sustenta. Cada interação gera custo direto de computação. Tokens de entrada e saída representam consumo real de infraestrutura. À medida que o padrão de uso evolui, o usuário deixa de ser apenas um ponto de acesso ao sistema e passa a representar uma carga computacional ativa. O usuário vira workload.

Esse custo tem três camadas. A primeira é a amortização de hardware: GPUs e servidores físicos que executam o modelo têm vida útil de três a cinco anos, e esse custo se distribui entre cada requisição. Uma GPU moderna como a NVIDIA H100 custa entre US$ 25.000 e US$ 40.000; uma única solicitação de inferência pode exigir que várias delas trabalhem em conjunto. A segunda é eletricidade e refrigeração: GPUs esquentam, e em grande escala as contas de energia chegam a cifras que explicam por que empresas de IA estão investindo em usinas próprias. A terceira é engenharia e operações: alguém precisa manter esses sistemas funcionando, lidar com falhas e escalar a capacidade. O preço da API que aparece na documentação é a tentativa do provedor de cobrir as três camadas — e ainda obter margem.

A margem bruta típica do SaaS fica entre 70% e 85%. Em produtos de IA com precificação por token sem camada de abstração, essa margem cai para 30% a 60%, dependendo do modelo e da carga de trabalho. A Notion divulgou uma queda de 10 pontos percentuais na margem bruta diretamente atribuída ao custo de incorporação de recursos de IA em seu produto. A análise da OpsLyft sobre implementações corporativas constatou que custos ocultos (aumento de recuperação de dados, geração de embedding, gerenciamento de janela de contexto, lógica de repetição) rotineiramente adicionavam de 40% a 60% sobre o custo bruto de inferência que a maioria das equipes monitorava.

Onde os planos de assinatura falham

Planos com taxa fixa e limites implícitos funcionam enquanto o uso permanece interativo e relativamente leve. Eles se tornam instáveis quando expostos a workloads intensivos. O problema não é apenas o aumento médio de uso. É a variância.

O primeiro mecanismo é o contexto acumulado. O protocolo de chamada aos modelos de linguagem é stateless. O estado da conversa não é mantido pelo modelo, e precisa ser reencaminhado via contexto a cada requisição. Para manter uma conversa coerente, o aplicativo precisa agrupar e reenviar todo o histórico anterior a cada nova chamada. Na primeira mensagem, você envia 500 tokens e paga por 500 tokens de entrada. Na quinta, reenvia 2.500 tokens de histórico mais 500 novos e paga por 3.000. Na vigésima, reenvia 14.500 tokens de histórico mais 500 novos e paga por 15.000. Na vigésima mensagem, você está pagando 30 vezes mais pelo contexto do que pagou pela primeira, mesmo que sua nova pergunta seja tão curta quanto a original. Alguns provedores mitigam isso com prompt caching e state stores, mecanismos que evitam reprocessar segmentos fixos do contexto. Isso não elimina o custo estrutural; altera onde ele incide e como é cobrado.

O segundo é a variância de uso. Usuários avançados,especialmente em tarefas como programação assistida, consomem ordens de magnitude mais recursos do que a média. O fenômeno foi descrito pelo TechCrunch como “tokenmaxxing”: usuários em planos de assinatura de preço fixo que geram mais de US$ 35.000 em custos de computação enquanto pagam US$ 200 por mês. Nessa proporção, o provedor absorve um subsídio de 175 vezes para seus usuários mais intensivos. Algumas empresas de IA constataram que seus 5% melhores usuários respondem por 75% dos custos totais de computação — enquanto pagam a mesma taxa fixa de todos os outros.

Isso cria um desalinhamento direto: receita previsível por usuário, custo altamente variável por uso. Limites de uso, nesse contexto, deixam de ser apenas uma restrição técnica. Passam a funcionar como mecanismos de controle econômico.

O paralelo histórico é o iPhone e a AT&T. Em 2007, a Apple lançou o aparelho com um plano de dados ilimitados. O que ninguém havia calculado com precisão era o quanto usuários de smartphone consumiriam comparado com usuários de celulares tradicionais. A rede foi sobrecarregada. A AT&T precisou renegociar o contrato com a Apple, introduzir limites e investir massivamente em infraestrutura. O mercado de IA está no mesmo ponto — com a diferença de que o ciclo está comprimido e o ajuste está ocorrendo em meses, não anos.

O ajuste dos fornecedores

A pressão que a Anthropic enfrenta está longe de ser exceção. Na prática, é o caso mais visível de um ajuste que está ocorrendo em todo o setor. A Anthropic tem sido a empresa que menos investiu em capacidade entre os grandes laboratórios, em parte refletindo uma trajetória historicamente menos voltada ao consumidor. Com a expansão de capacidades dos modelos, especialmente em tarefas de programação e execução multi-etapa, a empresa passou a enfrentar pressão de capacidade e aumento da variabilidade de consumo. Engenheiros de software que adotaram fluxos de trabalho de programação assistida por IA passaram a usar milhares de vezes mais tokens do que os parâmetros originais dos planos de preço previam.

Mas a lógica não é exclusiva dela. A Alphabet introduziu em 2025 um sistema de planos  (AI Pro por US$ 19,99 mensais e AI Ultra por US$ 249,99) com Créditos de IA que limitam o consumo em vez de oferecer acesso ilimitado. A mudança de “uso irrestrito” para consumo medido é um sinal de que mesmo uma empresa com a infraestrutura e as margens do Google não sustenta consumo ilimitado de tokens a preços fixos para centenas de milhões de usuários. A OpenAI introduziu restrições progressivas no plano Pro e expandiu o tier de US$ 200 mensais para comportar usuários de maior intensidade. O padrão é consistente: receita previsível por usuário, custo altamente variável por uso e os fornecedores ajustando precificação e capacidade como variáveis interdependentes.

O ajuste mais revelador ocorreu em abril de 2026. A Anthropic lançou Managed Agents em beta público cobrando US$ 0,08 por hora de sessão ativa, além das taxas de inferência padrão. Sete dias depois, a OpenAI anunciou sua própria camada de orquestração, sem taxa adicional, usando apenas preço padrão de tokens e ferramentas. Dois modelos opostos em dezesseis dias, apostando na mesma premissa: o orquestrador virou o produto central. A diferença é estrutural: a Anthropic cobra pelo tempo de sessão — uma hora de agente rodando, independentemente de quantas chamadas ao modelo ocorram dentro dessa hora. A OpenAI cobra pelo uso — tokens e chamadas a ferramentas, sem taxa de “tempo ligado”. Essa bifurcação não é apenas técnica. É um indicador de como cada empresa enxerga o comportamento do cliente empresarial médio, e de onde espera capturar valor à medida que agentes autônomos se tornem infraestrutura de processo.

A mudança na unidade de valor

O debate sobre precificação costuma focar no preço por token ou no valor da assinatura. A mudança mais relevante está em outro lugar: a unidade de valor está migrando de acesso ao software para trabalho executado.

Modelos tradicionais cobram por usuário, assumem uso relativamente homogêneo e oferecem previsibilidade de custo. Modelos emergentes cobram por consumo ou por tarefa, refletem a variabilidade de uso e transferem parte da complexidade para o cliente. Essa transição já aparece em diferentes formas no mercado. Plataformas como Clay e ElevenLabs traduzem tokens para créditos proprietários — unidades abstratas que diferentes ações consomem em quantidades diferentes. GitHub Copilot e Notion AI embutem o custo em planos por usuário com limites de uso. O Cursor usa assinatura fixa com cobranças por excedente. O Intercom Fin cobra US$ 0,99 por ticket resolvido — preço atrelado ao resultado, não ao consumo.

A diferença entre os preços de mercado em março de 2026 ilustra a tensão que essas camadas de abstração precisam gerenciar. O Claude Opus 4.6 custava US$ 5 por milhão de tokens de entrada e US$ 25 de saída. O DeepSeek V3.2 cobrava US$ 0,28 e US$ 0,42, com acesso ao cache a US$ 0,028, economia de 90%. Comparativos públicos de APIs mostravam casos em que uma mesma carga de trabalho custava algo na ordem de 60 vezes mais no modelo mais caro do que no mais barato.  Isso não significa que o modelo mais barato seja sempre a escolha correta — capacidade, confiabilidade, segurança e latência importam. Mas a diferença explica por que o roteamento de modelos, enviando tarefas simples para modelos baratos e escalando apenas as mais complexas, virou prática padrão.

A velocidade dessa migração, no entanto, não é uniforme. O consumidor final ainda tende a preferir modelos de assinatura com limites implícitos. A previsibilidade de um valor fixo mensal importa mais do que a otimização do custo por tarefa. O segmento B2B e enterprise está se movendo mais rápido para usage-based, híbrido ou cobrança por unidade de resultado, em parte porque as equipes financeiras exigem atribuição de custo e os times de engenharia já operam com a lógica de consumo de infraestrutura em nuvem.

Há uma camada adicional que torna essa dinâmica menos visível sem torná-la menos real: no B2B, boa parte do custo de inferência está sendo amortizada dentro de outros produtos. CRMs com features de IA embutidas, plataformas de colaboração com sumarização integrada, ferramentas de produtividade com assistentes nativos… em todos esses casos, o custo de computação existe e cresce, mas não aparece como linha separada na fatura do cliente. Está diluído no preço do produto maior. Isso cria uma ilusão de gratuidade para o usuário final e um problema crescente de margem para o fornecedor. O usuário vira workload, operando uma camada abaixo da percepção.

O papel dos agentes

É nesse contexto, de unidade de valor migrando para trabalho executado, que os agentes amplificam o problema com um terceiro mecanismo: a execução encadeada. Ao transformar uma única solicitação em múltiplas execuções encadeadas, sistemas agênticos multiplicam o número de chamadas de inferência, o tamanho do contexto e o custo por tarefa. O impacto não é linear: pequenas mudanças na forma de uso geram aumentos significativos no consumo.

Uma única tarefa executada por um sistema multiagente (pesquisar um tópico, redigir um documento, validá-lo em relação a políticas internas e iterar com base em feedback) pode consumir de 50.000 a 500.000 tokens antes de produzir um resultado final. Assistentes de codificação sempre ativos processam rotineiramente milhões de tokens por desenvolvedor por dia. Quando agentes chamam outros agentes, cada interação acumula sobre a anterior. Esse padrão explica por que certas integrações e harnesses externos passaram a ser limitados ou cobrados separadamente: eles concentram exatamente os casos de uso com maior intensidade computacional.

A curva de custo foi, paradoxalmente, o que tornou os agentes economicamente viáveis. Quando uma única chamada de API custava US$ 0,10, permitir que um agente fizesse 50 chamadas para resolver um problema parecia desperdício. A US$ 0,001 por chamada, permitir que ele itere 50 vezes custa apenas cinco centavos. Isso muda completamente a forma como se arquiteta sistemas de IA. Mas também muda o que acontece com a fatura no fim do mês e é a razão pela qual o anúncio da NVIDIA do NemoClaw na GTC de março de 2026 chamou atenção: uma distribuição empresarial da pilha de IA agente com controles de segurança, roteamento de privacidade, registro de auditoria e suporte nativo para modelos rodando em hardware local ou em nuvem privada. Jensen Huang colocou a questão diretamente à plateia: “Qual é sua estratégia para o OpenClaw?” passou a ser pergunta frequente em reuniões de diretoria.

O problema da governança

A migração para cobrança por uso expõe uma limitação operacional nas organizações. A maioria das empresas não possui visibilidade granular sobre consumo de tokens por usuário, distribuição de uso por equipe ou custo por tipo de tarefa. Sem essa visibilidade, torna-se difícil prever gastos, controlar consumo ou avaliar retorno sobre investimento.

O artigo “Inference Cost Explained“, da CloudZero registrou que o gasto mensal médio de organizações com IA chegou a US$ 62.964 em 2024, com projeção de US$ 85.521 em 2025. Apenas 51% dessas organizações afirmavam conseguir avaliar com confiança o retorno sobre esse investimento. Essa lacuna entre o que se gasta e o que se consegue explicar é, precisamente, um problema de visibilidade de governança de inferência.

Há armadilhas estruturais conhecidas nesse percurso.

  • Faturas imprevisíveis: clientes que não conseguem prever gastos ficam nervosos. Diretores financeiros que não aprovam compromissos de consumo ilimitados sem mecanismos de controle.
  • Compressão de preços: ao precificar com base em tokens, a empresa está precificando uma commodity cujo custo de produção cai aproximadamente 10 vezes a cada 18 meses. Os clientes esperam que essa economia seja repassada, e a precificação baseada puramente em tokens sem camada de valor agregado tende a uma corrida ao fundo.
  • Complexidade de faturamento: múltiplos modelos, múltiplas modalidades, preços distintos de entrada e saída, tokens em cache versus não armazenados, taxas em lote versus tempo real… As permutações se multiplicam.
  • Reconhecimento de receita: saldos de tokens pré-pagos são passivos até serem consumidos; tokens expirados precisam de tratamento contábil adequado, e empresas que ignoram isso desde o início criam problemas que se tornam críticos em due diligence ou preparação para auditoria.

O prompt caching foi a resposta técnica mais direta para conter o crescimento do custo de contexto. Introduzido pelos principais provedores ao longo de 2024 e 2025, o mecanismo congela uma versão processada dos segmentos fixos do prompt nos servidores do provedor. Em vez de pagar o preço integral para que a IA releia os mesmos tokens a cada envio, paga-se uma taxa de cache (cerca de 10% do preço padrão nos modelos de ponta em março de 2026). Para aplicações que utilizam o mesmo contexto base, o caching reduz os custos de entrada entre 50% e 90%.

Casos documentados mostram reduções na ordem de 40% a 75% nos custos de inferência com a combinação de roteamento de modelos, caching e compressão de prompts. Esses resultados refletem implementações específicas, não uma média de mercado. Um usuário frequente da OpenAI que apurou consumo de 9,5 bilhões de tokens mensais em início de 2025 obteve redução de 70% nos tokens de saída e 40% no custo total após otimizar prompts e implementar caching. A AWS documentou framework de otimização para cargas de trabalho de IA generativa que resultou em economia de até 75% por token em contextos empresariais. A Azilen redesenhou sua arquitetura com RAG e fragmentação de modelos para distribuir cargas entre modelos menores, reduzindo custos de inferência em mais de 50% e mantendo precisão das respostas acima de 92%.

A disciplina de governança de tokens — monitorar, atribuir e controlar consumo — tende a se tornar parte essencial da gestão de tecnologia nas organizações que escalam IA além do uso experimental.

E o modelo por resultado?

Modelos baseados em resultado começam a surgir como alternativa, especialmente em casos onde o output é claramente mensurável. A lógica é direta: se a IA executa trabalho, o pagamento pode estar vinculado à entrega. Exemplos já em operação incluem cobrança por ticket de suporte resolvido, por lead qualificado gerado, por documento contratual validado ou por transação de e-commerce processada com assistência de IA. O Intercom Fin a US$ 0,99 por ticket é o caso mais documentado do segmento.

No entanto, a aplicação ampla ainda enfrenta limitações concretas: dificuldade de atribuição de resultado em tarefas abertas, variação na qualidade das entregas e dificuldade de definição de escopo. Uma sessão de análise de documento com múltiplos outputs intermediários não tem um “resultado” tão óbvio quanto um ticket fechado. Por isso, esses modelos devem coexistir com formas intermediárias de cobrança (créditos, planos híbridos, cotas por tipo de tarefa) em vez de substituí-las no curto prazo.

O que está claro é que nenhum provedor de IA resolveu de forma definitiva a equação. A Alphabet projetou US$ 75 bilhões em despesas de capital para 2025. A estimativa atual para 2026 chega a US$ 175 bilhões a US$ 185 bilhões. Quase o dobro em um único ano, destinado predominantemente a infraestrutura de IA: data centers, chips personalizados, capacidade de rede para lidar com a demanda de inferência. Esses não são os padrões de gastos de uma empresa que resolveu a equação econômica da IA. São os padrões de gastos de uma empresa que corre para construir capacidade para uma curva de demanda que consegue prever, mas ainda não consegue atender de forma lucrativa.

O Gartner projeta que, até 2030, o custo de inferência sobre um modelo de trilhão de parâmetros será mais de 90% menor do que em 2025. Os modelos de resultado fazem mais sentido econômico nesse cenário, quando o custo por token for suficientemente baixo para que a variância de consumo por tarefa deixe de ser o risco principal. Até lá, o mercado vai operar em modelos híbridos.

O que está realmente mudando

A fricção observada (limites de uso, mudanças de precificação, restrições de capacidade) não é um detalhe de produto. É a interface visível de uma mudança na economia da IA.

O paradoxo de Jevons explica por que a queda de custo por token não se traduz em fatura menor. Quando se faz algo 1.000 vezes mais barato, o resultado típico não é economia proporcional. É expansão proporcional nos casos de uso que se tornam economicamente viáveis. Uma tarefa que custava US$ 10 no início de 2023 custava cerca de US$ 0,10 no final de 2025. O gasto total de empresas com IA cresceu 320% em 2025 mesmo com o custo por token caindo em ordem de magnitude. Os dados de gastos corporativos compilados pela Ramp mostram que o custo médio por milhão de tokens caiu de aproximadamente US$ 10 para US$ 2,50 em doze meses. A fatura média das organizações subiu.

À medida que sistemas agênticos se tornam padrão, o desafio deixa de ser oferecer acesso à inteligência e passa a ser gerenciar o custo de sua execução. As organizações que gerenciarem bem essa transição não serão necessariamente as que menos investirem em IA. Serão as que tiverem visibilidade precisa do que estão gastando e por quê. E que construírem modelos de negócio que não dependam de subsídios estruturais para funcionar.

Nesse novo contexto, o usuário não é mais apenas um cliente do sistema. Ele é parte da carga que o sistema precisa suportar e precificar.

A economia da IA mudou

Inteligência Artificial

A economia da IA mudou

Modelos mais baratos não significam menor gasto. Embora o preço por token tenha caído, o volume de uso passou a definir a conta.

Por que a robótica ainda não escala? Cenários para autonomia física até 2031

Inteligência Artificial

Por que a robótica ainda não escala? Cenários para autonomia físic...

Relatório projeta quatro cenários para o futuro da robótica e aponta desafios de regulação, investimento e adoção em ambientes reais.

Pricing: onde a IA gera ROI verificável

Inteligência Artificial

Pricing: onde a IA gera ROI verificável

Enquanto 90% das iniciativas de IA ainda não saíram do piloto, o pricing B2B já tem resultados no P&L

Mythos, o modelo que encontra falhas que passaram décadas invisíveis

Inteligência Artificial

Mythos, o modelo que encontra falhas que passaram décadas invisíveis

Quando encontrar brechas deixa de ser difícil, todo cuidado é pouco. Por isso, a Anthropic lançou o modelo para apenas 50 empresas parceiras. O Project Glasswing inaugura uma nova fase da cibersegurança.

A realidade da IA em 2026, segundo Stanford

Inteligência Artificial

A realidade da IA em 2026, segundo Stanford

O AI Index, do HAI, identifica uma dependência geopolítica que o mercado ignora e uma percepção pública construída sobre uma versão anterior da tecnologia.

O que o balanço da IA não mostra

Inteligência Artificial

O que o balanço da IA não mostra

Quando os projetos fracassam, os custos somem. Quando os funcionários ficam de fora, ninguém conta. A indústria celebra uma transformação que seus próprios dados contradizem.