The Shift

Chain of Thought é bom. Chain of Debate é muito melhor

Com a frase aí do títuloMustafa Suleyman, CEO da Microsoft AI, apresentou ao mundo o conceito de Chain of Debate (CoD). Segundo ele, esse é o passo seguinte à Chain of Thought (CoT), que ajuda a IA a raciocinar. Uma semana depois, a Microsoft revelou a primeira aplicação prática do CoD: o MAI Diagnostic Orchestrator (MAI-DxO), que diagnostica casos médicos complexos melhor que os médicos, segundo a empresa.

Chain of Debate substitui o raciocínio individual da CoT por um diálogo estruturado entre IAs, que se criticam, se desafiam e se aprimoram mutuamente. Os modelos não só pensam em voz alta, como pensam juntos e, por extensão, pensam melhor, aprimorando CoTs uns dos outros. O que oferece a possibilidade de desbloquear a tomada de decisão multidimensional com responsabilização, adaptabilidade e colaboração entre modelos de IA. E, de quebra, de aumentar a confiança, a precisão e a qualidade dos resultados — reunindo os pontos fortes dos modelos e mitigando as limitações ou preconceitos uns dos outros.

“É aí que a transparência de debater ‘em voz alta’ realmente importa e faz a diferença. Não estamos assistindo impotentes a uma caixa preta. Mesmo que as IAs influenciem e orientem umas às outras, o usuário pode ver exatamente qual é essa influência — e intervir, se necessário”, comenta Suleyman.

CADASTRE-SE GRÁTIS PARA ACESSAR 5 CONTEÚDOS MENSAIS

Já recebe a newsletter? Ative seu acesso

Ao cadastrar-se você declara que está de acordo
com nossos Termos de Uso e Privacidade.

Cadastrar

O método Chain of Debate é parte do sucesso do MAI-DxO. Orquestra a interação de agentes de IA que simulam uma equipe de médicos, revisando, questionando e refinando as sugestões uns dos outros antes de chegar a um diagnóstico final.

No teste citado no paper sobre o sistema, cinco agentes de IA atuaram como “médicos” — cada um com uma função distinta, como criar hipóteses ou escolher testes de diagnóstico — interagindo e “debatendo” para chegar a uma decisão. Os agentes trabalharam com os principais LLMs da OpenAI, Meta, Anthropic, Google, xAI e DeepSeek. Melhorou o desempenho de todos, mas eles trabalharam melhor com o modelo o3, da OpenAI, resolvendo corretamente 85,5% dos 304 estudos de caso extraídos do New England Journal of Medicine para o Sequential Diagnosis Benchmark.

O desempenho das IAs foi quatro vezes superior ao dos médicos humanos com as quais foram comparadas: eles resolveram só 20% dos casos. Com a ressalva de que nenhum dos médicos teve permissão para acessar livros didáticos ou fazer perguntas aos colegas, o que poderia ter aumentado sua taxa de sucesso.

Cada modelo de IA contribuiu com conhecimento especializado, enquanto o MAI-DxO atuava como o médico, avaliando as opções e tomando as decisões finais. Começando somente com a queixa principal do paciente — talvez “fadiga e dor nas articulações” — o sistema navega pelo mesmo labirinto de diagnóstico que os médicos humanos enfrentam. Escolhe quais perguntas fazer, quais testes solicitar e quando parar de investigar. Quando combinado com o modelo o3, da OpenAI, o MAI-DxO melhorou significativamente. O sistema pôde verificar seu raciocínio, comparar decisões com novas informações e executar análises de custo-benefício antes de prosseguir — recursos que refletem os das melhores equipes médicas, não os de profissionais individuais.

“O orquestrador de agentes teve um desempenho melhor do que qualquer coisa que já vimos antes”, disse Dominic King, ex-chefe da unidade de saúde da DeepMind que se juntou à Microsoft no fim do ano passado. “Há uma oportunidade hoje de agir quase como uma nova porta de entrada para a assistência médica”, completou.

Os modelos de IA também foram estimulados a serem conscientes em termos de custos, o que reduziu consideravelmente o número de testes necessários para chegar a um diagnóstico correto no estudo, economizando milhares de dólares em alguns casos, segundo King.

“Embora este trabalho não tenha sido realizado em contextos de prática médica real, é o primeiro a fornecer evidências do potencial de eficiência da IA Generativa na medicina — precisão e economia de custos”, concordou Eric Topol, cardiologista e diretor do Scripps Research Translational Institute.

No contexto da IA generativa, um orquestrador é como um maestro digital que ajuda a coordenar múltiplas etapas na realização de uma tarefa complexa. Na área da saúde, o papel da orquestração é crucial, considerando os altos riscos de cada decisão. O orquestrador se posiciona acima dos modelos de linguagem subjacentes, garantindo que cada etapa da obtenção de um diagnóstico seja tratada sistematicamente, reduzindo o risco de erros futuros e oferecendo a estabilidade, a consistência e a transparência necessárias para, em última análise, construir a confiança dos usuários.

Importante: o MAI-DxO não está disponível para testes, mas uma versão dele poderá ser implementada em breve no chatbot Copilot AI da Microsoft e no mecanismo de busca Bing, que lidam com 50 milhões de consultas de saúde por dia. Suleyman disse que a Microsoft está se aproximando de “modelos de IA que não são somente um pouco melhores, mas dramaticamente melhores do que o desempenho humano: mais rápidos, mais baratos e quatro vezes mais precisos”. “Isso será verdadeiramente transformador”, acrescentou.

Por enquanto, representa apenas uma pesquisa inicial empolgante. No cerne de qualquer plano de implantação desta tecnologia no mundo real está nosso compromisso com a segurança, a confiança e a qualidade, garantindo que todas as soluções para a área da saúde sejam clinicamente fundamentadas, projetadas de forma ética e comunicadas de forma transparente.

Um pouco mais sobre Chain of Debate

No mundo real, a tomada de decisão não é linear. Envolve equilibrar diferentes perspectivas, objetivos e compensações. É o que Chain of Debate faz. Substitui o raciocínio individual por um diálogo estruturado entre vozes de agentes especializados:

  • O otimista explora oportunidades.
  • Cético levanta riscos.
  • O orçamentista observa o custo/tempo.
  • O especificador verifica a adequação técnica.

Esses agentes não se limitam a raciocinar, eles se criticam, se desafiam e se aprimoram mutuamente. Isso reflete como equipes de especialistas operam e se expandem para além da tomada de decisões monolítica.

Em vez de um único modelo tentando ser tudo, o CoD reúne vários agentes, cada um desempenhando um papel diferente — não somente na função, mas na atitude:

👤 Um pragmático que mantém a solução fundamentada e factível
👤 Um pesquisador que se aprofunda em busca de evidências de apoio
👤 Um gerente de risco que sinaliza os piores cenários
👤 Um defensor do usuário que lembra a todos a experiência do usuário final

Esses agentes questionam ativa e mutualmente, revêm os seus pareceres e, eventualmente, convergem para uma solução precisa, mais equilibrada, contextual e explicável.

Futuro: CoD como plataforma

Extrapolando as possibilidades, já há pesquisadores pensando na possibilidade de:

  • Debate Designer UI: configure visualmente funções e restrições.
  • Debate-as-a-Service: pipeline na nuvem onde você inicia uma sessão de debate com vários agentes.
  • Debate Benchmarks: conjuntos de dados não resolvidos somente por precisão, mas pela qualidade dos registros de debate.