Com a frase aí do título, Mustafa Suleyman, CEO da Microsoft AI, apresentou ao mundo o conceito de Chain of Debate (CoD). Segundo ele, esse é o passo seguinte à Chain of Thought (CoT), que ajuda a IA a raciocinar. Uma semana depois, a Microsoft revelou a primeira aplicação prática do CoD: o MAI Diagnostic Orchestrator (MAI-DxO), que diagnostica casos médicos complexos melhor que os médicos, segundo a empresa.
Chain of Debate substitui o raciocínio individual da CoT por um diálogo estruturado entre IAs, que se criticam, se desafiam e se aprimoram mutuamente. Os modelos não só pensam em voz alta, como pensam juntos e, por extensão, pensam melhor, aprimorando CoTs uns dos outros. O que oferece a possibilidade de desbloquear a tomada de decisão multidimensional com responsabilização, adaptabilidade e colaboração entre modelos de IA. E, de quebra, de aumentar a confiança, a precisão e a qualidade dos resultados — reunindo os pontos fortes dos modelos e mitigando as limitações ou preconceitos uns dos outros.
“É aí que a transparência de debater ‘em voz alta’ realmente importa e faz a diferença. Não estamos assistindo impotentes a uma caixa preta. Mesmo que as IAs influenciem e orientem umas às outras, o usuário pode ver exatamente qual é essa influência — e intervir, se necessário”, comenta Suleyman.
O método Chain of Debate é parte do sucesso do MAI-DxO. Orquestra a interação de agentes de IA que simulam uma equipe de médicos, revisando, questionando e refinando as sugestões uns dos outros antes de chegar a um diagnóstico final.
No teste citado no paper sobre o sistema, cinco agentes de IA atuaram como “médicos” — cada um com uma função distinta, como criar hipóteses ou escolher testes de diagnóstico — interagindo e “debatendo” para chegar a uma decisão. Os agentes trabalharam com os principais LLMs da OpenAI, Meta, Anthropic, Google, xAI e DeepSeek. Melhorou o desempenho de todos, mas eles trabalharam melhor com o modelo o3, da OpenAI, resolvendo corretamente 85,5% dos 304 estudos de caso extraídos do New England Journal of Medicine para o Sequential Diagnosis Benchmark.
O desempenho das IAs foi quatro vezes superior ao dos médicos humanos com as quais foram comparadas: eles resolveram só 20% dos casos. Com a ressalva de que nenhum dos médicos teve permissão para acessar livros didáticos ou fazer perguntas aos colegas, o que poderia ter aumentado sua taxa de sucesso.
Cada modelo de IA contribuiu com conhecimento especializado, enquanto o MAI-DxO atuava como o médico, avaliando as opções e tomando as decisões finais. Começando somente com a queixa principal do paciente — talvez “fadiga e dor nas articulações” — o sistema navega pelo mesmo labirinto de diagnóstico que os médicos humanos enfrentam. Escolhe quais perguntas fazer, quais testes solicitar e quando parar de investigar. Quando combinado com o modelo o3, da OpenAI, o MAI-DxO melhorou significativamente. O sistema pôde verificar seu raciocínio, comparar decisões com novas informações e executar análises de custo-benefício antes de prosseguir — recursos que refletem os das melhores equipes médicas, não os de profissionais individuais.
“O orquestrador de agentes teve um desempenho melhor do que qualquer coisa que já vimos antes”, disse Dominic King, ex-chefe da unidade de saúde da DeepMind que se juntou à Microsoft no fim do ano passado. “Há uma oportunidade hoje de agir quase como uma nova porta de entrada para a assistência médica”, completou.
Os modelos de IA também foram estimulados a serem conscientes em termos de custos, o que reduziu consideravelmente o número de testes necessários para chegar a um diagnóstico correto no estudo, economizando milhares de dólares em alguns casos, segundo King.
“Embora este trabalho não tenha sido realizado em contextos de prática médica real, é o primeiro a fornecer evidências do potencial de eficiência da IA Generativa na medicina — precisão e economia de custos”, concordou Eric Topol, cardiologista e diretor do Scripps Research Translational Institute.
No contexto da IA generativa, um orquestrador é como um maestro digital que ajuda a coordenar múltiplas etapas na realização de uma tarefa complexa. Na área da saúde, o papel da orquestração é crucial, considerando os altos riscos de cada decisão. O orquestrador se posiciona acima dos modelos de linguagem subjacentes, garantindo que cada etapa da obtenção de um diagnóstico seja tratada sistematicamente, reduzindo o risco de erros futuros e oferecendo a estabilidade, a consistência e a transparência necessárias para, em última análise, construir a confiança dos usuários.
Importante: o MAI-DxO não está disponível para testes, mas uma versão dele poderá ser implementada em breve no chatbot Copilot AI da Microsoft e no mecanismo de busca Bing, que lidam com 50 milhões de consultas de saúde por dia. Suleyman disse que a Microsoft está se aproximando de “modelos de IA que não são somente um pouco melhores, mas dramaticamente melhores do que o desempenho humano: mais rápidos, mais baratos e quatro vezes mais precisos”. “Isso será verdadeiramente transformador”, acrescentou.
Por enquanto, representa apenas uma pesquisa inicial empolgante. No cerne de qualquer plano de implantação desta tecnologia no mundo real está nosso compromisso com a segurança, a confiança e a qualidade, garantindo que todas as soluções para a área da saúde sejam clinicamente fundamentadas, projetadas de forma ética e comunicadas de forma transparente.
No mundo real, a tomada de decisão não é linear. Envolve equilibrar diferentes perspectivas, objetivos e compensações. É o que Chain of Debate faz. Substitui o raciocínio individual por um diálogo estruturado entre vozes de agentes especializados:
Esses agentes não se limitam a raciocinar, eles se criticam, se desafiam e se aprimoram mutuamente. Isso reflete como equipes de especialistas operam e se expandem para além da tomada de decisões monolítica.
Em vez de um único modelo tentando ser tudo, o CoD reúne vários agentes, cada um desempenhando um papel diferente — não somente na função, mas na atitude:
👤 Um pragmático que mantém a solução fundamentada e factível
👤 Um pesquisador que se aprofunda em busca de evidências de apoio
👤 Um gerente de risco que sinaliza os piores cenários
👤 Um defensor do usuário que lembra a todos a experiência do usuário final
Esses agentes questionam ativa e mutualmente, revêm os seus pareceres e, eventualmente, convergem para uma solução precisa, mais equilibrada, contextual e explicável.
Extrapolando as possibilidades, já há pesquisadores pensando na possibilidade de:
A promessa é aumentar transparência, explicabilidade e eficiência, reduzir custos e criar fluxos inteligentes em escala.
Relatório da McKinsey mostra como IA Analítica, Generativa e Agêntica podem transformar o combate a crimes financeiros, elevando eficiência e produtividade
A entrada da Inteligência Artificial Agêntica no e-commerce transforma a jornada de compra, redefine a competição entre marketplaces e inaugura a verdadeira personalização
Quatro lançamentos recentes — GPT-5, GPT-OSS, Genie 3 e Claude Opus 4.1 — mostram que a disputa não é mais por modelos maiores, mas por modelos mais úteis.
Mais seguro, mais barato e com novos truques agênticos, modelo continua longe da AGI e leva OpenAI a enfrentar críticas no lançamento.
Enquanto a IA avança, a amnésia digital dos modelos permanece um gargalo. Mas soluções já estão surgindo — de cofres pessoais de memória a plugins especializados.
Aproveite nossas promoções de renovação
Clique aquiPara continuar navegando como visitante, vá por aqui.
Cadastre-se grátis, leia até 5 conteúdos por mês,
e receba nossa newsletter diária.
Já recebe a newsletter? Ative seu acesso