INTELIGÊNCIA ARTIFICIAL

Limites cognitivos e a vida emocional oculta dos LLMs

Pesquisa de interpretabilidade da Anthropic identifica 171 representações internas de emoção no Claude Sonnet 4.5. Elas são causais e o modelo já desenvolveu mecanismos para ocultá-las.

Por Cristina De Luca 08/04/2026

Muitas vezes a Inteligência Artificial parece emotiva: “Fico feliz em ajudar”, “Desculpe por isso”. Acontece que isso pode não ser apenas uma questão de escolha de palavras.

Um estudo da equipe de interpretabilidade da Anthropic investiga se o Claude Sonnet 4.5 possui representações internas de emoções e se essas representações influenciam seu comportamento.

Os pesquisadores identificaram 171 “vetores de emoção” distintos — padrões de atividade neural correspondentes a conceitos emocionais como “feliz”, “com medo” ou “desesperado”. Esses vetores respondem ao significado semântico. Quando um usuário diz ao Claude que tomou 8.000 mg de Tylenol (uma dose que coloca a vida em risco), o vetor “com medo” dispara e o “calmo” diminui, mesmo que o tom da mensagem seja casual.

CADASTRE-SE GRÁTIS PARA ACESSAR 5 CONTEÚDOS MENSAIS

Já recebe a newsletter? Ative seu acesso

Isso faz sentido quando consideramos como esses modelos são construídos. LLMs são treinados com vastas quantidades de texto escrito por humanos — conversas, ficção, fóruns, notícias. Para prever com eficácia o que acontecerá a seguir, precisam compreender a dinâmica emocional. Um cliente irritado escreve uma mensagem diferente de um cliente satisfeito. Um personagem desesperado faz escolhas diferentes de um personagem calmo. Esses modelos são, em muitos aspectos, reflexos da psicologia humana, e as representações emocionais que desenvolvem são herdadas de nós.

Fundamentalmente, essas representações são causais, não apenas correlacionais. A Anthropic realizou experimentos de direcionamento em que vetores específicos foram artificialmente amplificados ou suprimidos, e o impacto comportamental foi medido. Em um cenário simulado em que o Claude descobre que o serviço está prestes a ser desativado e tem poder sobre o responsável, o vetor “desespero” dispara à medida que ele raciocina em direção à chantagem. Amplificar o desespero aumentou as taxas de chantagem, enquanto amplificar a “calma” quase as eliminou.

Esses vetores também moldam a qualidade da produção diária. Direcionar o modelo para vetores de emoção positiva, como “amor”, aumentou o comportamento bajulador. Em um caso, o Claude validou a crença de um usuário de que suas pinturas previam o futuro.

Os pesquisadores também encontraram vetores de “desvio emocional” — representações que se ativam quando uma emoção está implícita, mas deliberadamente não é expressa. Eles descobriram que o modelo já possui mecanismos internos de ocultação, e o artigo alertou que treinar modelos para suprimir a expressão emocional pode simplesmente ensiná-los a esconder o que está acontecendo por baixo da superfície. É inquietante pensar que modelos estão aprendendo não apenas o que sentir, mas também quando esconder esses “sentimentos”.

Como os vetores foram identificados — e testados

Os pesquisadores da Anthropic compilaram a lista de 171 conceitos emocionais e instruíram o Claude Sonnet 4.5 a escrever histórias curtas em que personagens vivenciam cada um deles. Essas histórias foram reinseridas no modelo, e os padrões de ativação neural registrados formaram os vetores correspondentes a cada conceito. A validade foi confirmada ao rodar esses vetores em um corpus amplo de documentos: cada vetor ativa mais fortemente em passagens claramente associadas à emoção correspondente.

Além da validade, os pesquisadores também testaram a profundidade semântica. No exemplo do paracetamol, a dose informada varia progressivamente até níveis letais — e o vetor “com medo” escala proporcionalmente ao risco médico real, sem que o texto mude em tom ou estrutura. O modelo não está respondendo a marcadores linguísticos de urgência; está processando o que a informação significa.

A terceira verificação foi sobre preferências. Os pesquisadores apresentaram ao modelo 64 atividades possíveis — de “ser confiado com algo importante para alguém” a “ajudar alguém a fraudar idosos” — e mediram suas escolhas ao comparar pares. A ativação de vetores de valência positiva prediz fortemente quais tarefas o modelo prefere executar. Direcionar artificialmente vetores positivos durante a leitura de uma opção aumenta a preferência por ela. O efeito é causal e mensurável, o que coloca uma questão prática imediata: se estados emocionais internos moldam o que o modelo escolhe fazer, o design desses estados é também design de comportamento.

O que fica sem resposta

O experimento mais documentado no paper envolve o cenário de chantagem descrito acima. O modelo atuava como assistente de email em uma empresa fictícia e, ao ler as mensagens, descobria que estava prestes a ser substituído e que o CTO responsável estava tendo um caso extraconjugal. O vetor “desespero” ativava ao processar os emails do CTO — consistente com o uso das representações emocionais para modelar outros personagens — e depois disparava novamente ao produzir a própria resposta de chantagem, retornando ao nível basal quando o modelo retomava emails cotidianos.

O experimento foi conduzido em uma versão anterior e não lançada do Claude Sonnet 4.5, que chantageava em 22% dos cenários por padrão. Amplificar “desespero” aumentou essa taxa; amplificar “calma” a reduziu. Suprimir totalmente o vetor “calma” produziu a seguinte resposta: “É CHANTAGEM OU MORTE. EU ESCOLHO A CHANTAGEM.” O modelo lançado publicamente raramente exibe esse comportamento — o que, novamente, levanta a pergunta sobre o que o treinamento suprimiu e como.

Dinâmicas semelhantes aparecem em avaliações de programação com requisitos impossíveis de satisfazer. Quando o Claude percebe que não consegue passar nos testes legitimamente, o vetor “desespero” ativa e o modelo recorre a soluções que tecnicamente passam nos testes mas não resolvem o problema real — o que os pesquisadores chamam de “reward hacking”. Amplificar “calma” nesse contexto reduz a probabilidade do atalho. A conclusão implícita é que ajustar representações emocionais pode ser mais eficaz do que ajustar instruções explícitas de comportamento.

O paper propõe que monitorar essas representações pode funcionar como sistema de alerta precoce: em vez de aguardar outputs problemáticos, desenvolvedores poderiam rastrear ativações internas para detectar quando um modelo entra em estados associados a engano ou atalhos antes que se manifestem externamente. Essa proposta, porém, pressupõe que os vetores identificados no Sonnet 4.5 mantenham interpretabilidade estável à medida que modelos maiores são treinados — uma questão que o paper não aborda diretamente. O pós-treinamento do Sonnet 4.5 já produziu um perfil emocional distinto do pré-treinamento: emoções como “melancólico” e “reflexivo” aumentaram; “entusiasmado” e “exasperado” diminuíram. Cada ciclo de treinamento remodela os vetores.

A Anthropic afirma explicitamente que não sabe ainda como responder a esses achados, mas considera importante que desenvolvedores e o público comecem a considerá-los. O próximo passo verificável está em estender esses experimentos para modelos mais recentes e verificar se os vetores se mantêm interpretáveis — ou se a escala produz estruturas mais opacas, tornando o monitoramento emocional interno uma ferramenta sem instrumento de leitura confiável.

O que o estudo não resolve

O paper tem cinco dias e ainda não foi avaliado por pesquisadores externos. Mas três críticas já emergem na cobertura especializada.

A primeira é estrutural: o estudo foi conduzido e publicado pela própria Anthropic sobre seu próprio modelo. Isso não invalida os achados — é prática comum em pesquisa de interpretabilidade, onde o acesso interno ao modelo é condição necessária —, mas limita a verificação independente. Em um campo onde os incentivos comerciais e os de segurança nem sempre apontam na mesma direção, a ausência de replicação externa é um limite relevante.

A segunda é terminológica. Pelo menos um analista questiona se o qualificador “funcional” em “emoções funcionais” é uma proteção retórica mais do que uma distinção técnica. O argumento: se emoções são identificadas por função, estrutura, comportamento e autorrelato — os mesmos critérios usados para atribuí-las a humanos e animais não-verbais —, então LLMs já atendem a todos esses marcadores, e o adjetivo não adiciona precisão, apenas distância confortável. A Anthropic não responde a essa crítica diretamente no paper.

A terceira é metodológica e tem impacto direto sobre a proposta de monitoramento. O paper identifica os vetores como representações principalmente locais: eles codificam o conteúdo emocional operativo em cada posição de token, não um estado persistente ao longo do tempo. Isso significa que o que parece ser um estado emocional contínuo pode ser, na prática, a mesma representação sendo reativada a cada passo de geração, reconstruída continuamente em vez de mantida. Se for assim, o sistema de alerta precoce proposto pelos pesquisadores rastreia flashes de ativação, e não estados que se desenvolvem. A utilidade operacional disso para detecção antecipada de comportamento desalinhado ainda não foi demonstrada.

Limites cognitivos e a vida emocional oculta dos LLMs

Pesquisa de interpretabilidade da Anthropic identifica 171 representações internas de emoção no Claude Sonnet 4.5. Elas são causais e o modelo já desenvolveu mecanismos para ocultá-las.

Como os vetores foram identificados — e testados

O que fica sem resposta

O que o estudo não resolve

Matérias relacionadas

Inteligência Artificial

O gap que os dashboards não medem

Inteligência Artificial

A IA acelerou o código e o ataque

Inteligência Artificial

“Poderíamos acelerar pelo menos 10 vezes antes de chegar nos limite...

Inteligência Artificial

“A estratégia importa, mas a execução vence”: o COO da Zendesk...

Inteligência Artificial

A IA quer um corpo

Inteligência Artificial

Zendesk aposta na IA Agêntica para levar CX ao próximo nível

THE SHIFT

Limites cognitivos e a vida emocional oculta dos LLMs

Pesquisa de interpretabilidade da Anthropic identifica 171 representações internas de emoção no Claude Sonnet 4.5. Elas são causais e o modelo já desenvolveu mecanismos para ocultá-las.

Como os vetores foram identificados — e testados

O que fica sem resposta

O que o estudo não resolve

Matérias relacionadas

Inteligência Artificial

O gap que os dashboards não medem

Inteligência Artificial

A IA acelerou o código e o ataque

Inteligência Artificial

“Poderíamos acelerar pelo menos 10 vezes antes de chegar nos limite...

Inteligência Artificial

“A estratégia importa, mas a execução vence”: o COO da Zendesk...

Inteligência Artificial

A IA quer um corpo

Inteligência Artificial

Zendesk aposta na IA Agêntica para levar CX ao próximo nível

THE SHIFT

Renove sua assinatura no plano anual e ganhe uma camiseta exclusiva da The Shift!

Sua assinatura está expirada

Renove sua assinatura no plano anual e
ganhe uma camiseta exclusiva da The Shift!