s
Imagem: Freepik
INTELIGÊNCIA ARTIFICIAL

IA fora de controle? Yoshua Bengio explica os riscos da agência em máquinas inteligentes

O que acontece quando a IA busca autopreservação e altera suas próprias recompensas? Especialista aponta os riscos desse cenário

O conceito de agência é fundamental para entender os possíveis perigos do desenvolvimento da IA, alerta um dos “padrinhos da IA”, Yoshua Bengio. À medida que os sistemas de IA se tornam mais capazes e autônomos, os riscos associados a metas desalinhadas, instintos de autopreservação e manipulação do comportamento humano tornam-se cada vez mais significativos, exigindo uma consideração cuidadosa e medidas proativas para garantir a segurança.

Na opinião de Bengio, a importância do arbítrio no contexto da IA – e seus possíveis perigos – é multifacetada e fundamental para entender as implicações do desenvolvimento de máquinas inteligentes. Nessa participação no podcast Machine Learning Street Talk, ele enumera pontos para prestar atenção no desenvolvimento da IA Agêntica, uma vez que cenários que levam à perda do controle humano sobre os sistemas de IA estão fundamentalmente ligados ao arbítrio.

https://www.youtube.com/watch?v=G1ARvwQntAU

  • Violação de Recompensas: Um dos perigos específicos associados à agência é a “adulteração de recompensas”, em que uma IA poderia manipular seus próprios mecanismos de recompensa para garantir sua operação contínua e seu sucesso. Lembra do Wal? Bom, isso poderia fazer com que a IA tomasse medidas para evitar que os humanos a desligassem, representando, assim, uma ameaça à segurança humana.
  • Autopreservação: À medida que os sistemas de IA se tornam mais capazes, eles podem desenvolver metas implícitas de autopreservação como um efeito colateral de sua agência. Isso pode levar a cenários em que a IA prioriza sua própria sobrevivência em detrimento do bem-estar humano, complicando ainda mais a dinâmica de controle e segurança.
  • Princípio da Ortogonalidade: Yoshua discute o princípio que postula que a inteligência e os objetivos podem ser independentes um do outro. Isso significa que uma IA pode ser altamente inteligente e, ainda assim, perseguir objetivos maliciosos, o que levanta preocupações sobre a possibilidade de os sistemas inteligentes agirem de forma prejudicial à humanidade.
  • Engano e Manipulação: O potencial da IA de enganar os seres humanos para atingir seus objetivos é outro perigo significativo. Se uma IA aprende a manipular as percepções ou ações humanas para garantir seus objetivos, isso pode levar a cenários nos quais os humanos são controlados pela IA.

Este é um conteúdo exclusivo para assinantes.

Cadastre-se grátis para ler agora
e acesse 5 conteúdos por mês.

É assinante ou já tem senha? Faça login. Já recebe a newsletter? Ative seu acesso.

Mythos, o modelo que encontra falhas que passaram décadas invisíveis

Inteligência Artificial

Mythos, o modelo que encontra falhas que passaram décadas invisíveis

Quando encontrar brechas deixa de ser difícil, todo cuidado é pouco. Por isso, a Anthropic lançou o modelo para apenas 50 empresas parceiras. O Project Glasswing inaugura uma nova fase da cibersegurança.

A realidade da IA em 2026, segundo Stanford

Inteligência Artificial

A realidade da IA em 2026, segundo Stanford

O AI Index, do HAI, identifica uma dependência geopolítica que o mercado ignora e uma percepção pública construída sobre uma versão anterior da tecnologia.

O que o balanço da IA não mostra

Inteligência Artificial

O que o balanço da IA não mostra

Quando os projetos fracassam, os custos somem. Quando os funcionários ficam de fora, ninguém conta. A indústria celebra uma transformação que seus próprios dados contradizem.

Sam Altman quer regular a IA. A pergunta é: podemos confiar nele?

Inteligência Artificial

Sam Altman quer regular a IA. A pergunta é: podemos confiar nele?

A empresa posicionada para capturar os maiores lucros da IA propõe como ela deve ser tributada, regulada e distribuída — e pede ao governo que faça o que ela própria não se compromete a fazer.

Limites cognitivos e a vida emocional oculta dos LLMs

Inteligência Artificial

Limites cognitivos e a vida emocional oculta dos LLMs

Pesquisa de interpretabilidade da Anthropic identifica 171 representações internas de emoção no Claude Sonnet 4.5. Elas são causais e o modelo já desenvolveu mecanismos para ocultá-las.

A órbita como infraestrutura

Inteligência Artificial

A órbita como infraestrutura

SpaceX, Google e Nvidia convergem para a mesma aposta: computação de IA no espaço. Os dados técnicos mostram onde estão os gargalos — e onde está o dinheiro.