Com a frase aí do título, Mustafa Suleyman, CEO da Microsoft AI, apresentou ao mundo o conceito de Chain of Debate (CoD). Segundo ele, esse é o passo seguinte à Chain of Thought (CoT), que ajuda a IA a raciocinar. Uma semana depois, a Microsoft revelou a primeira aplicação prática do CoD: o MAI Diagnostic Orchestrator (MAI-DxO), que diagnostica casos médicos complexos melhor que os médicos, segundo a empresa.
Chain of Debate substitui o raciocínio individual da CoT por um diálogo estruturado entre IAs, que se criticam, se desafiam e se aprimoram mutuamente. Os modelos não só pensam em voz alta, como pensam juntos e, por extensão, pensam melhor, aprimorando CoTs uns dos outros. O que oferece a possibilidade de desbloquear a tomada de decisão multidimensional com responsabilização, adaptabilidade e colaboração entre modelos de IA. E, de quebra, de aumentar a confiança, a precisão e a qualidade dos resultados — reunindo os pontos fortes dos modelos e mitigando as limitações ou preconceitos uns dos outros.
“É aí que a transparência de debater ‘em voz alta’ realmente importa e faz a diferença. Não estamos assistindo impotentes a uma caixa preta. Mesmo que as IAs influenciem e orientem umas às outras, o usuário pode ver exatamente qual é essa influência — e intervir, se necessário”, comenta Suleyman.
O método Chain of Debate é parte do sucesso do MAI-DxO. Orquestra a interação de agentes de IA que simulam uma equipe de médicos, revisando, questionando e refinando as sugestões uns dos outros antes de chegar a um diagnóstico final.
No teste citado no paper sobre o sistema, cinco agentes de IA atuaram como “médicos” — cada um com uma função distinta, como criar hipóteses ou escolher testes de diagnóstico — interagindo e “debatendo” para chegar a uma decisão. Os agentes trabalharam com os principais LLMs da OpenAI, Meta, Anthropic, Google, xAI e DeepSeek. Melhorou o desempenho de todos, mas eles trabalharam melhor com o modelo o3, da OpenAI, resolvendo corretamente 85,5% dos 304 estudos de caso extraídos do New England Journal of Medicine para o Sequential Diagnosis Benchmark.
O desempenho das IAs foi 4x o dos médicos humanos aos quais foram comparadas: eles resolveram só 20% dos casos. Com a ressalva de que nenhum dos médicos teve permissão para acessar livros didáticos ou fazer perguntas aos colegas, o que poderia ter aumentado sua taxa de sucesso.
Cada modelo de IA contribuiu com conhecimento especializado, enquanto o MAI-DxO atuava como o médico, avaliando as opções e tomando as decisões finais. Começando somente com a queixa principal do paciente — talvez “fadiga e dor nas articulações” — o sistema navega pelo mesmo labirinto de diagnóstico que os médicos humanos enfrentam. Escolhe quais perguntas fazer, quais testes solicitar e quando parar de investigar. Quando combinado com o modelo o3, da OpenAI, o MAI-DxO melhorou significativamente. O sistema pôde verificar seu raciocínio, comparar decisões com novas informações e executar análises de custo-benefício antes de prosseguir — recursos que refletem os das melhores equipes médicas, não os de profissionais individuais.
“O orquestrador de agentes teve um desempenho melhor do que qualquer coisa que já vimos antes”, disse Dominic King, ex-chefe da unidade de saúde da DeepMind que se juntou à Microsoft no fim do ano passado. “Há uma oportunidade hoje de agir quase como uma nova porta de entrada para a assistência médica”, completou.
Os modelos de IA também foram estimulados a serem conscientes em termos de custos, o que reduziu consideravelmente o número de testes necessários para chegar a um diagnóstico correto no estudo, economizando milhares de dólares em alguns casos, segundo King.
“Embora este trabalho não tenha sido realizado em contextos de prática médica real, é o primeiro a fornecer evidências do potencial de eficiência da IA Generativa na medicina — precisão e economia de custos”, concordou Eric Topol, cardiologista e diretor do Scripps Research Translational Institute.
Importante: o MAI-DxO não está disponível para testes, mas uma versão dele poderá ser implementada em breve no chatbot Copilot AI da Microsoft e no mecanismo de busca Bing, que lidam com 50 milhões de consultas de saúde por dia. Suleyman disse que a Microsoft está se aproximando de “modelos de IA que não são somente um pouco melhores, mas dramaticamente melhores do que o desempenho humano: mais rápidos, mais baratos e quatro vezes mais precisos”. “Isso será verdadeiramente transformador”, acrescentou.
No mundo real, a tomada de decisão não é linear. Envolve equilibrar diferentes perspectivas, objetivos e compensações. É o que Chain of Debate faz. Substitui o raciocínio individual por um diálogo estruturado entre vozes de agentes especializados:
Esses agentes não se limitam a raciocinar, eles se criticam, se desafiam e se aprimoram mutuamente. Isso reflete como equipes de especialistas operam e se expandem para além da tomada de decisões monolítica.
Em vez de um único modelo tentando ser tudo, o CoD reúne vários agentes, cada um desempenhando um papel diferente — não somente na função, mas na atitude:
👤 Um pragmático que mantém a solução fundamentada e factível
👤 Um pesquisador que se aprofunda em busca de evidências de apoio
👤 Um gerente de risco que sinaliza os piores cenários
👤 Um defensor do usuário que lembra a todos a experiência do usuário final
Esses agentes questionam ativa e mutualmente, revêm os seus pareceres e, eventualmente, convergem para uma solução precisa, mais equilibrada, contextual e explicável.
Cada agente traz sua lente — e, no final, você obtém uma decisão mais centrada no ser humano e realista.
Extrapolando as possibilidades, já há pesquisadores pensando na possibilidade de:
Os agentes de IA saem da fase experimental e assumem o papel de motor estratégico das empresas, exigindo novas métricas, requalificação e foco em inclusão digital
E se sua IA argumentasse, duvidasse e mudasse de ideia a partir da troca de ideias e do feedback de outras IAs? Todas debatendo, depurando, deliberando. É a proposta da Microsoft.
Promover o empreendedorismo feminino é, mais do que uma agenda de equidade de gênero, uma estratégia de impacto coletivo, escreve Rebecca Fischer, cofundadora da fintech brasileira Divibank
Relatório do IMD revela que competitividade depende de prontidão digital, resiliência e políticas estratégicas em um cenário global marcado por inflação, protecionismo e polarização.
Apesar do uso pessoal elevado, o uso de IA dentro das empresas estagnou em 51%. Estudo global do BCG mostra que treinamento, ferramentas e apoio da liderança são cruciais para capturar valor e reduzir o medo da substituição por máquina...
Mais da metade dos CEOs aposta na criação de novos negócios como motor de crescimento. O modelo de venture factory oferece velocidade, escalabilidade e eficiência para transformar ideias em negócios lucrativos — e pode gerar até 12...
Aproveite nossas promoções de renovação
Clique aquiPara continuar navegando como visitante, vá por aqui.
Cadastre-se grátis, leia até 5 conteúdos por mês,
e receba nossa newsletter diária.
Já recebe a newsletter? Ative seu acesso