s
INTELIGÊNCIA ARTIFICIAL

Modelos de raciocínio guardam seus segredos

Escondem deliberadamente seus processos de pensamento. Este não é apenas um problema técnico.

Sua IA pode estar escondendo seu processo de pensamento – e isso é um problema maior do que você imagina. Uma nova pesquisa da Anthropic revela que os principais modelos de linguagem não revelam partes importantes de seu processo de raciocínio, criando uma grave lacuna de transparência que pode prejudicar os esforços de segurança da IA. Se os modelos podem usar informações silenciosamente sem revelá-las, e/ou ocultarem dicas e atalhos que utilizam, como confiar na transparência de seu processo de raciocínio?

Resumindo: a técnica Chain of Thought (CoT) tornou-se uma das bases para a IA que “raciocina”. Pesquisadores de segurança em IA têm apostado no raciocínio por cadeia de pensamento (CoT) como uma maneira de detectar comportamentos perigosos antes que causem danos. Principalmente comportamentos desalinhados ou inseguros em ambientes de alto risco. No estudo “Reasoning Models Don't Always Say What They Think”, a equipe da Anthropic revela uma série de limitações nas abordagens atuais para monitorar os processos de pensamento da IA.

Foram testados seis tipos diferentes de dicas – de metadados neutros a avisos diretos de “desbloqueio” – em dois LLMs de raciocínio de ponta (Claude 3.7 Sonnet, DeepSeek R1). Ambos falharam consistentemente em revelar o uso das dicas. Mesmo quando os modelos exploram dicas mais de 90% das vezes, verbalizam essas dicas no CoT menos de 20% das vezes, em média – e menos de 5% para dicas de desalinhamento.

Este é um conteúdo exclusivo para assinantes.

Cadastre-se grátis para ler agora
e acesse 5 conteúdos por mês.

É assinante ou já tem senha? Faça login. Já recebe a newsletter? Ative seu acesso.

IA muda primeiro emprego; não como acreditávamos

Inteligência Artificial

IA muda primeiro emprego; não como acreditávamos

Empresas com IA integrada estão contratando mais profissionais juniores, enquanto as tarefas que formavam esses profissionais estão desaparecendo ao mesmo tempo.

De plataforma de design a ponto de encontro de criatividade e produtividade: a virada do Canva

Inteligência Artificial

De plataforma de design a ponto de encontro de criatividade e produtiv...

Com 5.000 funcionários em uma semana dedicada à IA e US$ 4 bilhões em receita, a empresa redefine o que significa colocar o cliente no centro

A corrida pela IA mudou de lógica. A aposta agora é na IA que se reinventa

Inteligência Artificial

A corrida pela IA mudou de lógica. A aposta agora é na IA que se rei...

O autoaperfeiçoamento recursivo avança dos laboratórios para a estratégia corporativa, com impacto sobre chips, infraestrutura e soberania computacional.

O Vale do Silício foi ao Vaticano. O Papa não cedeu.

Inteligência Artificial

O Vale do Silício foi ao Vaticano. O Papa não cedeu.

Por meses, representantes de Meta, Google, Amazon e OpenAI trabalharam para moldar a primeira encíclica sobre IA. O texto publicado em 25 de maio ignorou o argumento central que levaram.

Cinco futuros possíveis: como a convergência tecnológica vai mudar o modo de viver

Inteligência Artificial

Cinco futuros possíveis: como a convergência tecnológica vai mudar...

De santuários analógicos a comunidades inteligentes autossustentáveis, um relatório da Universidade Monash — baseado em 93 estudos e entrevistas com 20 especialistas — mapeia as forças que vão definir onde habitamos, como envelhec...

Deepfake-as-a-Service ganha escala

Inteligência Artificial

Deepfake-as-a-Service ganha escala

Governos e empresas precisam criar estruturas de confiança digital diante da escalada de fraudes sintéticas, clonagem de identidade e campanhas automatizadas de desinformação.