s
INTELIGÊNCIA ARTIFICIAL

Modelos de raciocínio guardam seus segredos

Escondem deliberadamente seus processos de pensamento. Este não é apenas um problema técnico.

Sua IA pode estar escondendo seu processo de pensamento – e isso é um problema maior do que você imagina. Uma nova pesquisa da Anthropic revela que os principais modelos de linguagem não revelam partes importantes de seu processo de raciocínio, criando uma grave lacuna de transparência que pode prejudicar os esforços de segurança da IA. Se os modelos podem usar informações silenciosamente sem revelá-las, e/ou ocultarem dicas e atalhos que utilizam, como confiar na transparência de seu processo de raciocínio?

Resumindo: a técnica Chain of Thought (CoT) tornou-se uma das bases para a IA que “raciocina”. Pesquisadores de segurança em IA têm apostado no raciocínio por cadeia de pensamento (CoT) como uma maneira de detectar comportamentos perigosos antes que causem danos. Principalmente comportamentos desalinhados ou inseguros em ambientes de alto risco. No estudo “Reasoning Models Don't Always Say What They Think”, a equipe da Anthropic revela uma série de limitações nas abordagens atuais para monitorar os processos de pensamento da IA.

Foram testados seis tipos diferentes de dicas – de metadados neutros a avisos diretos de “desbloqueio” – em dois LLMs de raciocínio de ponta (Claude 3.7 Sonnet, DeepSeek R1). Ambos falharam consistentemente em revelar o uso das dicas. Mesmo quando os modelos exploram dicas mais de 90% das vezes, verbalizam essas dicas no CoT menos de 20% das vezes, em média – e menos de 5% para dicas de desalinhamento.

Este é um conteúdo exclusivo para assinantes.

Cadastre-se grátis para ler agora
e acesse 5 conteúdos por mês.

É assinante ou já tem senha? Faça login. Já recebe a newsletter? Ative seu acesso.

Como a IA corta custos e cria riscos nas violações de dados no Brasil

Inteligência Artificial

Como a IA corta custos e cria riscos nas violações de dados no Brasi...

Relatório da IBM mostra que o custo médio é de R$ 7,19 milhões por violação. Mais de 60% das empresas não têm política de uso e uma em cada 6 violações usam IA para atacar organizações

Seu board pessoal com IA: passo a passo para começar agora

Inteligência Artificial

Seu board pessoal com IA: passo a passo para começar agora

Crie um conselho consultivo com personas geradas por IA para tomar decisões mais estratégicas, com clareza sob demanda e diversidade de pensamento

Corrida por talentos de IA é mais que estratégica

Inteligência Artificial

Corrida por talentos de IA é mais que estratégica

Os próximos grandes saltos não ocorrerão necessariamente nos mesmos lugares. 

Agentes de IA: o valor chegou, a confiança não

Inteligência Artificial

Agentes de IA: o valor chegou, a confiança não

Desconfiança e falta de estrutura freiam adoção, apesar do alto potencial de ROI

Software-as-an-Agent: o futuro do SaaS na era da IA

Inteligência Artificial

Software-as-an-Agent: o futuro do SaaS na era da IA

Com IA, o valor do SaaS deixa de ser o número de usuários e passa a ser o quanto o software trabalha por você. E isso muda tudo

IA no trabalho: alta expectativa, baixa confiança — e acesso desigual

Inteligência Artificial

IA no trabalho: alta expectativa, baixa confiança — e acesso desigu...

Trabalhadores esperam que a IA traga eficiência, mas não confiam em seu julgamento. E o acesso desigual à tecnologia e ao treinamento amplia a exclusão